编辑: kieth 2019-07-06

而台罗拼音使用 p、t、k 来标注,较像国际音标. 4.美式拼音 除了前面的描述之外,美式拼音将国语ㄓ、ㄔ、ㄕ、ㄖ、ㄗ、ㄘ、ㄙ的空韵由加上 「ih」改成加上「ii」 .原因是「h」结尾的音为台语的入声音,可能会有冲突发生.例如cih(ㄘ)和sih(ㄙ)也是台语的入声音.台罗、通用和美式拼音的子音对照表如附录ㄧ 所示.

三、音转字处理 音转字的输入方式可分为二种,一种是透过键盘输入,另一种采用语音的输入方 式,而它们的主要问题是如何从一音多字里选择正确的字.在国语中字的音节有四百多 个,而国语的字却有一万个以上,台语字的音节有七百多个,台语字也有八千个以上, 平均一个音节会对应到

一、二十个字.以下我们将探讨此问题. 在处理中文音转字的问题中,目前常见的方法有规则法及统计法. ? 规则法:从语言学中订出规则,依┑墓嬖蚺卸铣龊侠淼慕峁,其缺点是 需要大量的专业人士参与. ? 统计法:其中 N-Gram 语言模型[3]是目前最常用的方法,使用语料库来训练语 言模型得到字、词或词性间的关系. 以下将介绍我们处理音转字的方式.

(一) 国语音转字 由於我们是要实作一个输入法 ,所以不希望系统修改太久以前输入的资讯照成使用 者的困恼,因此我们的组字视窗限制在十二个字内.系统只会修改组字视窗内的字,当 组字视窗超过十二个字时,系统则会自动输出第一个辞汇.在组字视窗内,我们依连续 三个词的长词优先演算法[6][15]找出合理的结果.当连续三个词的长词优先演算法找出 的结果有二组以上时,我们实验二种方式来音转字的计算分数,分别为公式

1 及公式 2. Wm 是候选词组的词汇,P(Wm)是词的机率.

(二) 台语音转字 我们的台语音转字采用上节所提的连续三个词的长词优先法 ,台语输入采用长词优 先法的好处是较不需要训练语料.台语输入有一个要注意的情况是台语音 S = S1,S2,…,SN (N 是总音节数,Si 是第 i 个音节)对应至台语文 X = X1,X2,…,XT (T 是总字 数,Xi 是第 i 个台语字)时,N 与T的长度不一定是相同.在考量各种情况下,我们系 统优先输出音节数与辞汇字数相同的辞汇 ,使用者如果想要字数与音节数不相同的词汇 可以在修改模式中去选取.

(三) 智慧型处理 由於国语及台语的拼音方案众多 ,因此对於拼音系统不熟悉的初学者往往会混合著 不同的拼音方案输入;

所以我们希望系统能给与多种拼音方案相容的方式,以减少初学 者拼音的错误率.我们采取的方法为当使用者输入一个音串,系统会去评估使用者是输 入那一种拼音方案的那个音节,例如:使用者输入「cyuan」音串,系统就评估它是输入 )

2 ( ) | ( * ) ( )

1 ( ) (

2 1

1 2

1 1 ? ? ? ? ? ? ? ? ? n m m m n m m n m m W W P W P T W P T 通用拼音方案的「ㄑㄩㄢ」音节. 然而有些音串对应到的音节不只一种,例如:「niu」音串,可以对应到汉语拼音的 「ㄋㄧㄡ」音节及注音二式的「ㄋㄩ」音节,表二为国语拼音系统互相冲突的地方.对 於此状况,我们将可能的音节都送入至系统中,然后再依上下文估算合理的结果,例如: 「liu ju mei guo yang ji duei wang jian min jhu tou liu ju wu shih fen , liu ju jin ji guan jyun jhan de si wang」 ,这一句中「liu」音串可以对应到汉语拼音的「ㄌㄧㄡ」音节及注音二 式的「ㄌㄩ」音节, 「ju」音串可以对应到汉语拼音的「ㄐㄩ」音节及注音二式的「ㄓ ㄨ」音节.我们依上下文推断合理的结果为「旅居美国洋基王建民主投六........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题