编辑: ACcyL 2018-11-09
本科生毕业论文 题目: 科技文献引文的信息提取 系统 姓名: 梁一中 学号:

00748275 院系: 信息科学技术学院 专业: 计算机科学与技术 研究方向: 网络与信息系统 导师姓名: 彭波

2011 年5月26 日 北京大学本科生毕业论文 C ii C 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本 论文作者同意,不得将本论文转借他人,亦不得随意复制、 抄录、拍照或以任何方式传播.

否则一旦引起有碍作者著作 权之问题,将可能承担法律责任. C iii C 北京大学本科生毕业论文 C iv C 科技文献引文的信息提取系统 梁一中 计算机科学与技术 导师姓名:彭波 摘要 PARADISE文献检索系统的主要功能可以划分成两大部分:1)原始文献的 信息提取和引文构建;

2)针对给定查询返回相应的文献排名.与传统的文本检索 系统相比,文献检索系统具有网络化的特点:文献之间通过作者,引用文献,发 表的期刊或会议等属性构成了相应的网络.这些网络的构建对于查询系统的排序 和推荐的实现有着重要意义,而网络的构建需要对于原始文献的精确信息提取. 本文详细介绍了PARADISE中信息提取系统的子系统――文献引文提取的实 现与改进.我们把引文提取视为一个序列标注问题,并引入隐马尔可夫模型和条 件随机域模型来解决该问题.经测试数据集评测显示,新的模型较好地改进了原 有信息提取系统,并达到state-of-the-art的性能水准.此外,文中还设计了翔实的 比较实验,具体分析了两种模型的优劣所在,并详细讨论了条件随机域模型中的 特征选择、特征设计方法.这些经验对于使用条件随机域来解决实际问题有较好 的指导意义. 关键词:信息提取,隐马尔可夫模型,条件随机域,特征选取 C v C 摘要 北京大学本科生毕业论文 C vi C An Information Extraction System for Extracting References from Research Papers LIANG Yizhong Computer Science &

Technology Directed by PENG Bo Abstract PARADISE academic search system can be divided into two parts: 1) infor- mation extraction and indexing;

2) ranking or recommendation module for papers. Compared with traditional text retrieval systems, this systems contains network features: papers are connected by co-author, citation and co-appear(on journal or conference) relationships. These networks contain signi?cant information, which must be obtained by accurate information extraction from original papers. This paper discusses the implementaion of the reference extraction module in the information extraction system of PARADISE. We considered it as a sequence labeling task and introduced two probability models: Hidden Markov Model and Conditional Random Fields. According to our experiments, the new models im- proved the original system and reached the state-of-the-art performance. Moreover, we conducted experiments to compare the models and demonstrate the signicifance of feature engineering in CRF. The experiment results are helpful for best practice in using CRFs. Keywords: information extraction, hidden markov model, conditional random ?elds, feature selection C vii C Abstract 北京大学本科生毕业论文 C viii C 目录

第一章 引言

1

第二章 引文提取子系统功能与设计

5 2.1 系统功能和模块

5 2.2 系统前端的实现

6 2.3 主系统的实现

8 2.4 系统后端的实现

10

第三章 序列标注的概率模型

13 3.1 引文提取中序列标注问题的定义

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题