编辑: 颜大大i2 2019-07-18
基于 Web 的中英文术语自动抽 取技术 Web-based Chinese-English Bilingual Term Extraction (申请清华大学工程硕士专业学位论文) 培养单位:计算机科学与技术系 工程领域:计算机技术 申请人:柯武峰指导教师:孙茂松教授二九年十一月 基于WEB的中英文术语自动抽取柯武峰关于学位论文使用授权的说明 本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权, 其中包 括: (1)已获学位的研究生必须按学校规定提交学位论文,学校可以 采用影印、缩印或其他复制手段保存研究生上交的学位论文;

(2)为 教学和科研目的, 学校可以将公开的学位论文作为资料在图书馆、 资 料室等场所供校内师生阅读, 或在校园网上供校内师生浏览部分内容.

本人保证遵守上述规定. 作者签名: 导师签名: 日期: 日期: 摘要I摘要术语广泛的存在于科技文档中,如何提取、分析、理解以至翻译这些术语 成为现在自然语言处理的一个研究方向.随着当今世界信息量的急剧增加和国 际交流的日益频繁,计算机网络技术迅速普及和发展,语言障碍愈加明显和严 重,对机器翻译的潜在需求也越来越大.双语术语散落在这些海量的互联网文 本数据中,靠人工进行检测和提取是不可想象的.本文所要解决机器翻译中如 何快速地对网络文本进行处理,从中抽取出较为准确的术语中英文互译候选, 以减轻人工筛选的工作量. 目前,双语术语的研究一般是运用句法分析或者引入双语词典的方法,实 现句子对齐,而后从对齐的句子运用算法,抽取互译词.而本文的基本思路是 在无监督的情况下,利用网络上大量存在的中英文术语互译信息,达到自动抽 取中英文术语候选的目的.我们通过对互联网上大量文本信息的观察,选取一 类符合规则的文本,针对文本建立一个语言模板,运用网络爬虫,抓取网页生 成网络文本语料库;

而后,在MapReduce 架构下对网络文本语料进行处理,抽 取符合该语言模板规定的大量中英文词对;

对抽取出来的大量中英文双语术语 候选进行预处理,过滤掉部分噪声;

对预处理后的数据运用多种优化的 LCS 算 法加以抽取,生成中英文双语术语互译词典,并对结果加以评测. 本文的研究工作主要包括在以下几个方面: 1. 在MapReduce 架构下,对抓取的文本语料库数据快速处理,以获得所需 文本数据资源. 2. 设计了一套无监督的双语术语自动抽取软件系统,能较为及时准确地发 现并更新术语库. 3. 基于 LCS 算法提出并建立了两种将规则和统计的方法相结合的双语术语 自动抽取模型.

4 用CRFs 辅助优化 LCS 算法, 对比试验结果, 分析 CRFs 分词对 LCS 算法 的影响. 关键词:术语 自动抽取 机器翻译 中文信息处理 自然语言处理 Abstract II Abstract Terminologies exist in scientific documents widely. How to extract, analyze and translate those terminologies is becoming a hot research area in natural language processing. With the development of Web 2.0, the information on the web accumulates rapidly. As a result, those documents on the Web contain a lot of bilingual terminologies. However, it is time consuming and impossible to detect those terminologies by human. In this paper, we mainly focus on how to process the web documents efficiently and extract reliable bilingual terminology candidates. The final goal is to reduce the cost of manual filtering. Nowadays, traditional research methods of bilingual terminologies usually introduce syntactic parsing technology or some background bilingual lexicon to align the bilingual sentences. And then extract bilingual terminologies. In this paper, we propose a method to extract bilingual terminologies from mass data exists on the Web. Firstly, through observations of the web documents, we choose some specific documents and construct a language template. Secondly, we utilize the web crawler to construct a web corpus. And then, we process this corpus under the framework of MapReduce to extract large amount of bilingual word pairs that specify the language template. Thirdly, we perform some pre-processing to reduce the noise in the bilingual word pairs. And then, multiple optimized LCS algorithms are adopted to extract the final bilingual terminologies. Finally, we also evaluate the performance of our proposed method. The contributions of our work mainly include: 1. We adopt the MapReduce framework to process the corpus efficiently. 2. We design an unsupervised method to automatically extract bilingual terminologies. Our method can accurately detect and update the bilingual terminologies. 3. Start from the LCS algorithm, we propose a bilingual terminologies extraction method that combines rule based and statistics based method. 4. We also utilize CRFs to assist the LCS algorithm, and analyze the impact of CRFs on LCS algorithm. Abstract III Keywords: terminology automatical extraction machine translation Chinese information process natural language processing Abstract V 目录第1章引言

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题