编辑: hys520855 2019-07-01
摘要?1?摘要本报告总结了作者 在站期间的主要研 究工作;

对北大天 网中文 搜 索引擎的用 户日志进行了全面 系统的研究和分析,具体包括以下 五个 方面的内容: 1.

提出了一个 Web 搜索引擎日志挖掘的研究框架:主要包括日 志挖掘研究 的内容、数据集的 选择、数据预处 理 的方法、所采用的 技术、对搜索 引擎系统的改进等 ;

并对不同地域用 户查询行为进行了 对 比分析. 2.分析了天网用户的一般行为特征:研究结果显示用户通常在一 天内只进行

1 到2次内容不同的查询,多于 2/3 的用户点击了结果页 面中的某些 URL;

多数中文用户输入的查询串中只含有一个词项并且 包含中文字符,其中以

2 至4个汉字居多;

用户查看结果页面的时间 大约是

2 到3分钟;

只有少数用户查看历史网页(或称网页快照). 用户 日志中不同查询串、 不同用户和点击不同 URL 的数量满足 Heaps 定律. 3.中文用户查询演化分析:对近

5 年天网用户的查询与点击行为 进行了纵向 分析,结果显示用 户输入的查询串中 所包含词项数量有 明 显增多的趋 势,用户会话的长 度逐年下降,用户 查看的结果页面越 来 越少,且查 看的时间间隔逐渐 减少.查询串中所 包含的汉字个数基 本 稳定.查询 次数与点击次数的 相关性逐渐减弱. 整体用户群的查询 主 题迁移较快. 4.多任务中文Web 查询研究:对天网用户的多任务(或称多个主 题)Web 查询进行研究和分析,结果显示多于 1/3 的用户进行多任务 Web 查询;

超过 1/2 的多任务会话包含两个不同的主题并进行 2~7 次查询;

多 任务会话时间的均值是一般会话时间均值的两倍;

天网用户的多任务查询 主要有三个主题:计算机,娱乐和教育,近1/4 的多任务会话中包含不确 定的信息. 5.基于搜索引擎日志发现相关Web 查询:提出了一种利用支持向 量回归发现相关 Web 查询的新方法.对一个给定的 Web 查询,首先从用 摘要?2?户的使用记录中抽取候选查询的五个量化指标:被查询的次数,被查询的 用户量,用户在反馈结果中的点击次数,与给定查询间的共有词项个数, 点击相同 URL 的个数等;

然后用手工标记部分训练数据,进而建立支持向 量回归模型,依相关度的大小确定相关 Web 查询. 关键词:搜索引擎,用户日志,Web 挖掘,多任务 Web 查询,相 关Web 查询摘要?3?Abstract This report is intended to present the researches that the author has done during the past two-years'

postdoctoral period. The author conducted a series of investigation on Web using mining in Tianwang, a large-scale Chinese search engine. The report includes five main parts as below. 1. A methodological framework is proposed in mining search engine logs. It includes what kinds of patterns to mine, how to select the data set, how to preprocess the logs, and what technologies to apply in the procedure. Furthermore, it also includes how to improve the performance of a search engine system based on these analysis, and a comparision of searching behaviors of users from different areas. 2. The user'

s logs of Tianwang are investigated. The results show that only 1~2 queries with different content are carried out in one day by a user, and more than 2/3 of the users click some URLs in the result pages viewed. Most of queries contain only one term with Chinese characters and the most frequent number of Chinese words is 2~4. The main interval is from
