【PDF】基于 W eb 资源的信息抽取技术 - 资源下载

编辑：

sunny爹

2018-02-20

l, r1, ……, lk, rk>

. 其它w rapper 集都是LR w rapper 集的扩展.HLR T w rapper 集中的w rapper 可表示为向量<

h, t, l1, r1, ……, lK, rK >

, 其中 h, t 分别为首位分界符;

OCLR w rapper 集中的w rapper 可表示为向量<

o, c, l1, r1, ……, lK , rK>

, 其中o, c 分别为打开和关闭分界符;

2 CLR T w rapper 集中的w rapper 可表示为向量<

h, t, o, c, l1, r1, ……, lk, rk>

.这四者所处理的响应页均为含有 HTM L 标记的文本.N

2 LR w rapper 集和N

2 HLR T w rapper 集均可用来抽取嵌套结构信息, 它们处理的相应页可以是不含 HTM L 标记的文本. N

2 LR w rapper 可表示为向量<

l1, r1, ……, lk, rk>

, N

2 HLR T w rapper 可表示为向量<

h, t, l1,

3 8

2 1

12 期基于W eb 资源的信息抽取技术 r1, ……, lk, rk>

, 这些分界符可以是HTM L 标记, 如<

, <

等, 也可以是文本字符串, 如 nam e , address 等.在LR w rapper 中的各分界符是彼此独立的, 而在N

2 LR w rapper 和N 2HLR T w rapper 中的各分界符是相互关联的. 实践结果表明, 这6个w rapper 集可处理 70% 的网站, 所需要的样页只需

2 ~

3 页就足够了. W rapper 的生成时间不超过一个 cpu 秒.

4 w rapper 半自动生成系统的开发手工构建w rapper 极其乏味, 而且很容易出错, 开发w rapper 自动生成系统, 在人工参与的情况下半自动地或无需人工干预的情况下完全自动地针对不同的w eb 类型集构建相应的w rapper 是w eb 信息抽取工作者孜孜以求的目的.一个w rapper 半自动生成系统可包含如下四个模块. (1) 语法结构标准化模块.该模块负责根据用户需求抓取w eb 文档, 将文档中的错误标记或丢失的标记进行修复, 最后将该文档转换成一个语法标签树, 为进行信息抽取作好准备. (2) 信息抽取模块.负责产生抽取规则.这些规则用声明性语言来表述.它分三步来执行: ①在检索到的文档中确定感兴趣的区域.②在语法标签树中确定重要的语义标签和它们的逻辑路径、节点位置. ③在检索到的文档中确定有用的层次结构. 每一步的结果都一套抽取规则, 这个模块相当于 w rapper 归纳技术中的w rapper 学习算法. (3) 代码生成模块.利用信息抽取模块中所产生的信息抽取规则, 结合各个规则所对应的可执行库例程, 形成w rapper 程序代码.这个过程相当于 w rapper 归纳技术中的w rapper 执行程序的生成. (4) 测试和打包模块.对所生成的w rapper 程序进行测试和调整, 以期得到更完善的版本, 对最终所满意的版本进行打包发布. 在这样的一个w rapper 半自动生成系统中, 可以充分利用声明性语言的优点来对信息抽取进行规范说明, 大大提高了可重用性. 作为一门应用性的语言处理技术, w eb 信息抽取近年来正受到越来越多的重视.本文介绍了一个简单的w eb 信息抽取模型, 在该模型中对w eb 信息抽取进行了形式化的描述. 此外, 详细探讨了w rap2 per 归纳技术中的 LR w rapper 集, 并就 N icho las kushm erick 所提供的其它五种w rapper 集进行了比较说明.最后介绍了w rapper 半自动生成系统的一个原型, 对其各个模块的主要功能进行了阐述. L earnLR 程序 (样页 Ε ) for 每一个 1≤k≤K for 每一个 u∈cands1 (k, Ε ): if valid1 (u, k, Ε ) then lk←u 并终止循环 for 每一个 1≤k≤K for 每一个 u∈candsr (k, Ε ): if validr (u, k, Ε ) then rk←u 并终止循环 return L r w rapper<

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 一种基于数据挖掘的 D eep W eb模式匹配方法
上一篇: 上海移动企业短信通

PDF《基于 W eb 资源的信息抽取技术》