编辑: sunny爹 2018-02-20
基于W eb 资源的信息抽取技术 郭志红 (上海交通大学情报研究所, 上海 200030) 摘要Web 资源含有大量的有用信息, 但由于它们欠结构化, 不能为传统的数据库型查询系统所利用.

如 何将这些信息抽取出来, 转化成结构化信息, 供其它信息集成系统所利用, 成为该领域的研究热点.本文介 绍了一个简单的W eb 信息抽取模型, 对于基于该模型的w rapper 归纳技术进行了探讨, 并描述了一个w rap2 per 自动生成系统的原型. 关键词 信息抽取 w rapper 归纳技术 自动生成原型系统 The Technology of Information Extraction for W eb Resource Guo Zhihong ( Info rm ation Research Institute, Shanghai J iao tong U niversity, Shanghai20030) Abstract There is p lenty of useful info rm ation in w eb resource. It can'

t be used by the traditional database query system because it is no t w ell- structured. Recently considerable attention has been received on how to extract it from w eb resource and transfer it to structured info rm ation that can be used by o ther info rm ation integration system s. This paper p resents a si mp le w eb info rm ation extraction model, discussed the techno logy of w rapper induction based on the model and describes autom atic generation p ro to type system of w rapper. Keywords Info rm ation extraction W rapper induction A utom atic generation p ro to type system 收稿日期: 2002- 03-

27 1 引言Internet 是一个巨大的信息资源库, 它上面有 着各种各样的在线信息: 天气预报、股票价格、商 品目录、政府法规和税收政策、个人爱好、研究报 告等等.所有这些w eb 资源信息都有两个共同的特 征: (1) 文本内容以 htm l 形式发布.(2) 通过浏览 方式或基于格式的查询方式来实现对其内容的存 取. 由于 htm l 标记更关注字体大小、颜色、位置等, 而文档的结构却隐含在这些标记中, 故htm l 页中的 大量信息都是半结构化的.而基于这种半结构化信 息的查询, 即w eb 查询, 与传统的基于结构化信息 的数据库查询是不同的, 其查询结果往往是互不相 关的 htm l 页面, 而且相同的查询往往得到的是不同 的结果.故要直接查询页面上的精确信息显得十分 困难.为了解决这个问题, 需要针对各种类型的 W eb 资源集构建相应的w rapper, 利用该w rapper 去抽取 htm l 页中的半结构化信息, 并转化成结构化 数据, 供其它信息集成系统利用.由于网上新资源 的频繁加入, 现存的资源格式又经常变化, 手工构 建w rapper 将极其乏味而且容易出错.因此, 开发 出自动构建w rapper 的技术及其系统则是该领域的 发展趋势.

2 W eb 信息抽取模型 一个简单的W eb 信息抽取模型可概括为: 向特 定资源库发出一个查询请求, 得到相应的响应页, 然后w rapper 从响应页中抽取出所需要的信息, 将其 映射成相应的标记信息, 如图

1 所示. query Q ∈Q

1 ] resource S ] page P∈∑

3 ] w tapper W ∈Ξ ] label L ∈L 图1简单的W eb 信息抽取模型 图中Q 是以查询语言Q

1 构造的查询表达式, 表达了用户所需要的信息. 它可能是SQL 或KQM L 语句, 也有可能是 CG I 脚本参数所组成的 语句.P 为查询响应页, 可以把它看成是A SC II 字 符集∑中的字符串, 含有一个或多个所需信息的元 组 (例如, 假设我们要抽取的信息为各个国家所对 应的电话号码区域号, 则具体的 (国家、区域号) 即 为一个元组.它有两个属性: 国家, 区域号.形式 地讲, 一个元组可表达为一个具有 k 个字符串属性 第20卷第12期2002 年12月情报科学Vo l1 20, No1

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题