【PDF】本科生毕业论文 - 资源下载

编辑：

ACcyL

2018-11-09

4 .和用模板提取的方法相比,概率模型具有更好的灵活性和描述能力,即使引文的格式发生了轻微改动也能良好应对,对于大多数引文内容的提取而言性能十分稳定. 本文通过运用隐马尔可夫模型和条件随机域模型,重新实现了PARADISE文献检索引擎中的引文内容提取子系统.具体而言,本文有如下贡献: 1. 我们改进了PARADISE文献检索系统对于文献引文的提取效果,使之达到了state-of-the-art的性能水平. 2. 我们制作了具有相当规模的文献引文数据集,能够有效地用于学习模型的训练和提取系统的评测工作.同时我们还制作了方便的序列分割、序列标注、数据评测工具,能够有效地应用于类似的序列标注问题. 3. 通过对比实验,我们总结出了隐马尔可夫模型和条件随机域模型在具体实践

4 http://en.wikipedia.org/wiki/Sequence labeling C

2 C 北京大学本科生毕业论文上的优缺点. 4. 通过各种对比实验我们探讨了条件随机域模型在解决序列标注问题中特征选择和特征设计的技巧,总结出了条件随机域的实践经验. 论文剩余部分的组织方式如下:

第二章概述了引文提取子系统的功能模块和主要工作流程;

第三章介绍序列标注问题和两个概率模型――隐马尔可夫模型和条件随机域模型的理论基础和实现细节;

第四章详细介绍了对两个模型在引文提取问题上的实证研究,包括模型的比较和条件随机域中特征设计和选取的方法;

第五章介绍了引文提取问题的相关研究工作;

最后一章是对本文的总结及未来工作的展望. C

3 C

第一章引言北京大学本科生毕业论文 C

4 C

第二章引文提取子系统功能与设计 2.1 系统功能和模块引文提取系统作为文献检索引擎中信息提取部分的一个子系统,功能上需要满足特定要求: 1. 系统具有定义良好的输入和输出,接口简介,调用方便;

2. 由于搜索引擎需要处理大量数据,引文提取作为原始文献处理过程中必被调用的模块,必须具有很好的运行效率和健壮性;

对于第一个要求,由于引文系统的文献都是统一格式的(PDF文档) ,可以做出如下定义: 系统输入由一系列PDF文献的URI(Universal Resource Identi?er)组成,每个URI代表了一篇文献的存放位置,URI之间通过换行符分隔. 引文信息提取的目的就是为了整理原有信息以方便利用,因此我们选用XML格式作为系统的输出.XML格式的自描述信息能让文献引文变得一目了然.具体的XML输出格式样例如下: http://www.cs.umass.edu/?mccallum/papers/hlt2004.pdf Accurate Information Extraction from C

5 C

第二章引文提取子系统功能与设计北京大学本科生毕业论文 Research Papers using Conditional Fuchun Peng Andrew McCallum S. Chen R. Rosenfeld January

2000 A Survey of Smoothing Techniques for ME Models IEEE Trans. Speech and Audio Processing

8 1 pp. 37{50 对于第二个需求,引文提取系统本身并没有特别复杂的逻辑结构,可以通过数据流驱动的方式进行模块化设计,得到的系统具有耦合度底,等优点,与需求较为契合.顶层的系统结构如图2.1所示. 在该顶层结构中,输入数据按顺序通过三个模块,并在每个模块中被加工和变换.本章的剩余部分将介绍三个模块的详细设计. 2.2 系统前端的实现引文提取系统的前端模块负责对处理输入的PDF文档进行预处理,为系统的主要模块提供格式良好的引文项作为输入.前端模块的工作流程也是顺序的,步骤如表2.1所示. 各个模块的具体实现说明如下: C

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《本科生毕业论文》