编辑: sunny爹 2018-02-20

l, r1, ……, lk, rk>

. 其它w rapper 集 都是LR w rapper 集的扩展.HLR T w rapper 集中 的w rapper 可表示为向量<

h, t, l1, r1, ……, lK, rK >

, 其中 h, t 分别为首位分界符;

OCLR w rapper 集中的w rapper 可表示为向量<

o, c, l1, r1, ……, lK , rK>

, 其中o, c 分别为打开和关闭分界符;

HO

2 CLR T w rapper 集中的w rapper 可表示为向量<

h, t, o, c, l1, r1, ……, lk, rk>

.这四者所处理的响 应页均为含有 HTM L 标记的文本.N

2 LR w rapper 集和N

2 HLR T w rapper 集均可用来抽取嵌套结构 信息, 它们处理的相应页可以是不含 HTM L 标记 的文本. N

2 LR w rapper 可表示为向量<

l1, r1, ……, lk, rk>

, N

2 HLR T w rapper 可表示为向量<

h, t, l1,

3 8

2 1

12 期 基于W eb 资源的信息抽取技术 r1, ……, lk, rk>

, 这些分界符可以是HTM L 标记, 如<

B>

, <

B>

, <

I>

, <

I>

等, 也可以是文本 字符串, 如 nam e , address 等.在LR w rapper 中的各分界符是彼此独立的, 而在N

2 LR w rapper 和N 2HLR T w rapper 中的各分界符是相互关联的. 实践结果表明, 这6个w rapper 集可处理 70% 的网 站, 所需要的样页只需

2 ~

3 页就足够了. W rapper 的生成时间不超过一个 cpu 秒.

4 w rapper 半自动生成系统的开发 手工构建w rapper 极其乏味, 而且很容易出错, 开发w rapper 自动生成系统, 在人工参与的情况下 半自动地或无需人工干预的情况下完全自动地针对 不同的w eb 类型集构建相应的w rapper 是w eb 信 息抽取工作者孜孜以求的目的.一个w rapper 半自 动生成系统可包含如下四个模块. (1) 语法结构标准化模块.该模块负责根据用 户需求抓取w eb 文档, 将文档中的错误标记或丢失 的标记进行修复, 最后将该文档转换成一个语法标 签树, 为进行信息抽取作好准备. (2) 信息抽取模块.负责产生抽取规则.这些 规则用声明性语言来表述.它分三步来执行: ①在 检索到的文档中确定感兴趣的区域.②在语法标签 树中确定重要的语义标签和它们的逻辑路径、节点 位置. ③在检索到的文档中确定有用的层次结构. 每一步的结果都一套抽取规则, 这个模块相当于 w rapper 归纳技术中的w rapper 学习算法. (3) 代码生成模块.利用信息抽取模块中所产 生的信息抽取规则, 结合各个规则所对应的可执行 库例程, 形成w rapper 程序代码.这个过程相当于 w rapper 归纳技术中的w rapper 执行程序的生成. (4) 测试和打包模块.对所生成的w rapper 程 序进行测试和调整, 以期得到更完善的版本, 对最 终所满意的版本进行打包发布. 在这样的一个w rapper 半自动生成系统中, 可 以充分利用声明性语言的优点来对信息抽取进行规 范说明, 大大提高了可重用性. 作为一门应用性的语言处理技术, w eb 信息抽 取近年来正受到越来越多的重视.本文介绍了一个 简单的w eb 信息抽取模型, 在该模型中对w eb 信息 抽取进行了形式化的描述. 此外, 详细探讨了w rap2 per 归纳技术中的 LR w rapper 集, 并就 N icho las kushm erick 所提供的其它五种w rapper 集进行了 比较说明.最后介绍了w rapper 半自动生成系统的 一个原型, 对其各个模块的主要功能进行了阐述. L earnLR 程序 (样页 Ε ) for 每一个 1≤k≤K for 每一个 u∈cands1 (k, Ε ): if valid1 (u, k, Ε ) then lk←u 并终止循环 for 每一个 1≤k≤K for 每一个 u∈candsr (k, Ε ): if validr (u, k, Ε ) then rk←u 并终止循环 return L r w rapper<

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题