编辑: 芳甲窍交 2013-06-21
博博博士 士 士学 学 学位 位 位论 论 论文 文文汉语依存句法分析关键技术研究 RESEARCH ON KEY TECHNOLOGIES OF CHINESE DEPENDENCY PARSING 李李李正正正华华华哈哈哈尔 尔 尔滨 滨 滨工 工 工业 业 业大 大 大学 学学2013年年年3月月月国内图书分类号:TP391.

2 国际图书分类号:681.324 学校代码:10213 密级:公开 工工工学 学 学博 博 博士 士 士学 学 学位 位 位论 论 论文 文文汉语依存句法分析关键技术研究 博士研究生:李正华导师:刘挺教授申请学位:工学博士 学科:计算机应用技术 所在单位:计算机科学与技术学院 答辩日期:2013年3月 授予学位单位:哈尔滨工业大学 Classified Index: TP391.2 U.D.C: 681.324 Dissertation for the Doctoral Degree in Engineering RESEARCH ON KEY TECHNOLOGIES OF CHINESE DEPENDENCY PARSING Candidate: Zhenghua Li Supervisor: Professor Ting Liu Academic Degree Applied for: Doctor of Engineering Specialty: Computer Application Technology A?liation: School of Computer Science and Technology Date of Defence: March,

2013 Degree-Conferring-Institution: Harbin Institute of Technology 摘要摘要依存句法分析的目标是分析输入句子的句法结构,将词语序列转化为树状 的依存结构.一条依存弧两个词语构成搭配关系,依存弧上的标签表示搭配的 具体类型,如主语、宾语、状语等.在不同语法体系中,依存语法以其形式简 洁、易于标注、便于应用等优点,逐渐受到研究人员的重视.计算自然语言学 习国际会议(CoNLL)联合举办的公开评测任务从2006年至2009年连续四年关 注面向多语言的依存句法分析,大大推动了依存句法分析的发展.依存句法分 析也越来越广泛的应用于机器翻译、问答系统、文本挖掘、信息检索等. 依存句法分析的研究工作旨在提高依存分析的准确率和效率.高准确率的 分析结果可以为上层应用提供更可信的句法结构.随着互联网数据的迅速膨 胀,上层应用系统需要迅速处理海量的信息,因此效率对于依存句法分析的应 用也很关键.本文的研究内容涵盖这两个问题,包括以下四个方面. 1. 提出了基于柱搜索和标点切分的快速高阶依存句法分析方法.针对前人 提出的面向高阶依存句法分析模型的动态规划解码算法时间复杂度高的问题, 本文提出使用柱搜索的近似解码算法,一方面允许模型可以方便的融入丰富的 高阶句法子树特征,另一方面保证较低的时间复杂度,我们实现的基于柱搜索 的高阶依存句法分析系统在CoNLL 2009年多语依存句法分析和语义角色标注 联合评测任务上取得了优异的成绩.进而,我们针对汉语的特点,提出一种利 用标点符号进行长句切分的二阶段依存句法分析方法,进一步提高依存句法分 析模型处理长句时的效率.实验证明,这种方法可以大幅度提高依存句法分析 的速度,长句子的句法分析准确率也有提高. 2. 提出了汉语词性标注和依存句法分析联合模型.由于缺少词语的形态变 化信息,汉语词性标注和其他语言如英语相比,准确率较低.这对对汉语依存 句法分析带来严重的错误蔓延问题.实验表明使用自动词性时依存句法分析准 确率比使用正确词性时低大约6%.对此,本文提出并深入系统的研究了汉语 词性标注和依存句法分析联合模型.首先,我们扩展了前人提出的面向依存句 法分析的解码算法,提出了相应的面向联合模型的基于动态规划的解码算法. 并且,为了解决联合解码算法的时间复杂度过高的问题,我们又提出了一种有 效地基于边缘概率的词性裁剪方法.实验结果表明联合模型可以提高词性和句 法准确率.深入的错误分析表明联合模型可以帮助消解句法敏感的词性歧义. 3. 提出了面向联合模型的分离被动进取训练算法.词性标注和依存句法分 - I - 哈尔滨工业大学工学博士学位论文 析联合模型中句法特征占据主导地位,导致词性特征无法贡献其消歧作用.对此,本文提出一种面向词性标注和依存句法分析联合模型的训练算法.算法分 别不同的步长对词性特征和句法特征的权重进行更新.和传统的平均感知器和 被动进取训练算法相比,分离被动进取训练算法可以很自然的增大词性特征 的权重,从而更好的平衡联合模型中词性特征和句法特征的消歧作用.实验发 现,我们的基于分离被动进取训练算法的联合模型在汉语和英语数据上都可以 取得最好的词性和句法准确率. 4. 提出了基于准同步文法的多树库融合方法.汉语存在多个异构树库,而 利用多个树库以提高依存句法分析准确率是一个非常有吸引力的课题.本文提 出一种基于准同步文法的多树库融合方法,充分利用标注规范不同的多个单语 树库,以提高句法分析准确率.我们设计了丰富的转换模式来刻画不同标注规 范间的对应规律,然后基于这些转化模式形成准同步文法特征,从而增强基准 依存句法分析模型.准同步文法特征用来指导句法模型做出更好的决策,并且 可以很自然的融入到基于图的句法分析解码算法中.实验结果表明,我们的方 法可以充分利用源树库的知识.从而提高句法模型在目标树库上的准确率. 总之,本文针对汉语特点,深入研究了基于标点的快速高阶依存句法分析 方法、词性标注和依存句法分析的联合模型和多树库融合问题,大大提高了汉 语依存句法分析处理实际文本数据的效率和准确率.本研究取得了一些初步的 成果.我们期待这些研究成果可以进一步推动自然语言处理领域和其他上层应 用如机器翻译、信息抽取的发展. 关键词: 依存句法分析;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题