编辑: 阿拉蕾 2017-12-01
2007年工作总结 段孟成 本年度工作 2007年度我参加了两项工作,第一是2007年上学期的指代消解工作,第二是2007年下学期的十七大期间网页抓取和处理工作,下面分别介绍这两项工作.

指代消解 指代是自然语言中常见的语言现象,大量出现在日常对话和书面写作中.由于互联网技术的不断发展,Web上出现了数以万计的网页,这些网页中也包含了大量的指代.随着Web挖掘研究的日益广泛,指代消解在信息抽取(实体及实体关系发现)上,呈现出了相当的重要性,这也是本项工作的意义所在. 我主要的工作是阅读相关论文,研究指代消解的相关工作,实现了基本的中文指代消解功能.其中的中文指代消解的工作包括中文人名性别识别,中文依存关系分析(与何靖合作),中文指代消解程序三个主要部分. 十七大网页抓取工作 本项工作的主要目的是抓取中国共产党十七大会议期间(10月1号到10月30号)的新闻网页,以十七大为目标,研究这种planed-event发生前后的实体和实体关系,以及它们随事件的发展而产生的变化. 我的主要工作是负责10月1号到10月30号期间的网页抓取以及抓取后的初步预处理.抓取系统采用nutch作为工具,在build8上进行,以alexa上前100的中文新闻站点作为种子,每天抓取这100个站点上的新闻网页,抓取深度为5层,30天总共抓取网页2000w.抓取完成以后,将nutch数据库中的网页导出成天网格式,便于后期的处理,同时导出30天的抓取url,做后期的数据分析. 在数据处理完成(实体提取和实体关系提取)后,我又负责实现一个基本的demo演示WebDigest小组的工作成果. 下年度工作计划 2008年的工作还是两个方面,首先是继续和WebDigest小组成员一起完成十七大网页数据处理的工作,实现一个完整的从抓取到处理到展示结果的系统;

第二是毕业论文的工作,也即继续指代消解的工作,从统计方法的角度去研究和学习指代消解,主要针对新闻网页来进行,充分利用网页的一些特性,并将指代消解真正应用到WebDigest小组的工作中去. 本年度工作体会 关于指代消解工作,以前没有接触过这种与自然语言处理相关的题目,开始学习和研究后才发现,自然语言处理的内容非常的庞大精深,如果要从传统的方法去开展指代消解工作,我们的背景毫无优势,而目前指代消解有从基于自然语言规则的方法到基于统计的方法的趋势,而这正是我们所擅长的,所以接下来的工作主要会以统计方法为主,正是所谓的趋长避短;

另外,在和何靖一起进行的中文依存关系分析的工作中,体会到pair-work的重要性和好处,两个人组成一个pair共同完成一项工作,既能提高效率互相促进,而且不会有大团体的管理开销,适合比较小的项目. 在十七大网页抓取的工作中,最重要的体会是好多以前做个的工作都没有保留下来,比如上次十六大期间也做了同样的事情,但是所有的抓取处理的程序都没有了,而且没有文档记述这些工作,这次又要从头再来,所以本次我们的工作都有详细的文档记述.另外,在抓取的期间,我们的crawler受到了多次影响而未能正常完成工作,包括机房停电,机器搬迁,学校网关故障等,对于这些问题我们事先都没有很好的预计到,这对以后的工作也是一个教训.

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题