编辑: yn灬不离不弃灬 2013-04-07
第5卷第2期2010 年2月97 基于最小可查询模式的 Deep Web 查询 刘均1,2 ,蒋路1,2 ,吴朝晖 1,2 ,郑庆华 1,2 ,潘军1,2 (1.

西安交通大学计算机系,西安 710049;

2. 西安交通大学智能网络与网络安全教育部重点实验室, 西安 710049) 摘要:给出了最小可查询模式MEP的概念,并在此基础上提出了MEP生成算法与基于MEP的自适应查询方法.该 方法将查询接口由单文本框推广到最小可查询模式集,一次查询由一个MEP和与该MEP匹配的关键词向量共同确定, 自适应地产生期望最优的下一个查询,直到满足查询停止条件.该方法克服了当前Deep Web查询方法能力不足导致的 数据孤岛 问题.在6个实际Deep Web站点的实验表明,该方法比已有方法具有更强的查询能力与适用性. 关键词:Deep Web;

最小可查询模式;

自适应查询 中图分类号:TP301 文献标志码:A 文章编号:1673-7180(2010)02-0097-9 Deep Web query based on minimum executable pattern Liu Jun1,2 ,Jiang Lu1,2 ,Wu Zhaohui1,2 ,Zheng Qinghua1,2 ,Pan Jun1,2 (1. Department of Computer Science and Technology, Xi'

an Jitaotong University, Xi'

an 710049, China;

2. Ministry of Education Key Lab For Intelligent Networks and Network Security, Xi'

an Jiaotong University, Xi'

an 710049, China) Abstract:This paper proposes the concept of minimum executable pattern(MEP), and then presents a MEP generation method and a MEP-based Deep Web adaptive query method. The query method extends query interface from single textbox to MEP set;

it performs a query by choosing a MEP and a keyword vector of the MEP, and generates the next expected optimal query until stop condition is satisfied. The proposed method overcomes the problem of Data Island which results from deficiency of current methods. The experimental results on six real-world Deep Web sites show that our method outperforms existing methods in terms of query capability and applicability. Key words:Deep Web;

minimum executable pattern;

adaptive query Deep Web 中蕴含着丰富的信息资源,其数据量与 质量远远超出了仅由静态页面构成的浅层网(surface Web)[1] .但是,这类信息无法以静态链接的方式获取, 只能通过查询表单生成的动态页面进行反馈, 加之Deep Web 查询表单的异构性与数据的海量特性,使得 Deep Web 信息的爬取成为一个难点问题[2] . Deep Web 爬取的目标是获取尽可能多的Deep Web 数据记录[3] ,其关键在于如何产生合适的查询.目前, 国内外对 Deep Web 爬取中的查询已开展了部分研究, 已有基于先验知识和无先验知识

2 类查询方法. 基于先验知识的查询方法需要在爬取前建立相应 的先验知识库,进而在先验知识的指导下产生查询.例如,Raghavan 等提出了基于 LVS(label value set)表的查 询方法[4] ,该方法通过学习查询表单来建立 LVS 表.郑 东东等提出了基于预定义的领域本体知识库的查询方 法[5] ,通过引入本体模型,增强了爬取领域的扩展性. 收稿日期:2009-11-19 基金项目:国家自然科学基金(60825202, 60803079);

国家高技术研究发展计划(863 计划)(2008AA01Z131);

新世纪优秀人才 支持计划(NECT-08-0433),高等学校博士学科点专项科研基金(2009021110060) 作者简介:刘均(1973- ), 男,副教授, 主要研究方向:数据挖掘、Web 挖掘, liukeen@mail.xjtu.edu.cn 中国科技论文在线 Sciencepaper Online 第5卷第2期2010 年2月98 中国科技论文在线 Sciencepaper Online Alvarez 等提出了基于领域定义(domain definitions)的查 询方法[6] ,在表单识别与填写的准确率上有所改进.上 述方法的不足之处在于: ①要求查询表单含有较多可供 学习先验知识的信息,对包含较少信息的查询表单(如 只包含接受关键词查询的单文本框表单),其处理能力 比较受限;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题