编辑: 645135144 2019-07-09
以语文特徵为基之中学阅?测验短文分级 Using Linguistic Features to Classify Texts for Reading Comprehension Tests at the High School Levels 黄昭宪 Chao-Shainn Huang 郭韦狄 Wei-Ti Kuo ?嘉? Chia-Ling Li 蔡家琦 Chia-Chi Tsai ?昭? Chao-Lin Liu 国?政治大学资讯科学系 National Chengchi University, Taipei, Taiwan {97753007, 94703041, 96703032, 99753006, chaolin}@nccu.

edu.tw ? 摘要 短文阅?是中阶语文学习者的重要功课,阅?测验也是语文测验中的重要项目.掌握文 本的分级技术,是电脑辅助阅?测验选题和电脑辅助阅?的重要基础.虽然阅?测验的 文本部分,并?能全然决定整体试题难??,但是文本部分的分级,仍为一个相关的基 石研究.本研究以国内高级中学程?的真实阅?测验文本为研究语?,考虑词汇、?子 表面特徵与?法相关讯息等特徵,搭配?同的机器学习技术进?分?工作.我们分析? ?同?别文字资讯对於分?正确性的贡献?,目前最高可达 53.6%的分?正确性. Abstract We investigate the issue of classifying short essays based their linguistic issues, for English at the high school levels. A good selection of appropriate essays is crucial for the language learners and for the reading comprehension tests, which is an important type of tests for lan- guage competence examinations. Although the text alone does not allow us to judge the dif- ficulty of reading comprehension tests, the capability to identify the levels of high school students for whom the texts were used in the reading comprehension can be an important step toward computer assisted selection of reading comprehension test items. We employed word-level statistics, sentence-level statistics, and syntactic-level information of the text, and applied several machine learning techniques for this text classification problem. Experimental results show that, with the best performing combination of features and learning method, we achieved 53.6% in accuracy. 关键字:电脑辅助语文教学、可?性分级、文件分?、阅?测验文本分析 1. 绪? 依照所包含的内容将文字资?加以分级是一个有相当?史的研究,早在西元

1948 ?就 有学者研究文章可?性的?述[21].这一方向的研究有许多相关的应用,对於语文学习 特别有其意义.将?文适当地分?,可以做为以电脑辅助阅?的基础;

?似的技术,也 可以作为电脑辅助短文评等的基础. 广泛的应用也意味著这一研究方向牵涉到许多研究?域,语言学、认知心?学、教 育学与资讯科学家对於这一?域?有所贡献.从应用面直接接触的使用者??,可以考 虑语文教育的受教者程?,是母语使用者?还是非母语使用者?一个好的研究工作或者 系统开发当然要兼顾上述所应用之目的、相关研究背景和真正使用者的特性?考虑. 早期的研究,基於当时技术与资源的限制,常只考虑文字资?中的词汇难?、?子 ?目和?长资讯[19,22].这样的作法当然?能满足实际的需求,就?学?上?有可议之 处[17].国内的学者,考虑比较复杂的词汇资讯,引入文字的上位词(hypernymy)与下位 词(hyponymy)资讯?辅助文章可?性的判?[24].除?提N文字相关资讯的深?之外, ?考虑到文字表层之外的资讯,?如文章结构、语意讯息甚至认知机制,如此一?才能 比较符合众人的期待[20]. 本研究以国内高级中学的英文阅?测验作为研究对象,依?测验文本中的词汇 与语?层次的资讯,?猜测阅?测验文本的测验对象.目前,限於资??源,测验的对 象只有高级中学的一?级上学期(以下简称高一上) ,高一下、高二上和高二下四个等 级.文字资?总共为

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题