【PDF】THUYG-20：一个免费的维吾尔语语音数据库* - 资源下载

编辑：

旋风

2019-07-11

NCMMSC2015 中国天津

2015 年10 月THUYG-20:一个免费的维吾尔语语音数据库* 艾斯卡尔・肉孜

1 ,殷实

1 ,张之勇

1 ,王东

1 ,艾斯卡尔・艾木都拉

2 ,郑方

1 (1.

清华大学语音和语言技术中心;

2.新疆大学信号与信息处理重点实验室) 文摘:语音数据资源是语音识别研究的基础.当前国内几乎没有开放的语音数据库供研究者免费使用,特别是在少数民族语音识别方面,数据资源更为贫乏.本文公开一个免费的维吾尔语连续语音数据库,该数据库包括约

20 小时的训练数据和

1 小时的测试数据.我们同时公开了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,公开了用于构建基线系统的脚本,给出该基线系统在纯净测试数据和噪音测试数据上的识别性能. 关键词:维吾尔语;

语料库;

语音识别;

DNN;

中图分类号: TP39 语音数据库是进行语音识别研究的基础.国际上比较著名的几个数据库包括 RM, Aurora, TIMIT, WSJ, Switch Board 等.这些标准数据库使得研究者可以在同一标准下比较自己的研究方法,因而极大推动了语音识别技术的发展.然而,这些数据库都需要付费才能使用,限制了初学者对语音领域的涉足.这一状况目前有所改变,出现了如 LibriSpeech 等可以免费使用的数据库资源1 . 相对而言,国内的数据库标准化工作十分薄弱.到目前为止,国内用于语音识别研究的只有为数不多的几个数据库为研究者公认,如汉语

863 数据库.少数民族语言的数据库建设还处于空白阶段,仅有的几个数据资源由研究者独立录制,规模小,缺乏统一标准,普及面窄.特别是,这些有限的资源共享性差,免费数据资源几乎没有.这一现状极大制约了我国语音识别研究的发展. 本文公开一个约

20 小时的维吾尔语语音数据库(THUYG-20)供研究者免费下载使用.特别是, 我们提供了用于构建完整语音识别系统的所有资源、代码、流程,提供完整的训练和测试标准,提供基线系统的识别结果,提供可重现的自动脚本. 我们期望通过这一数据库和基线系统的公开,可以吸引更多对语音识别研究感兴趣的学者,促进学术交流,推动国内语音识别,特别是维吾尔语语音识别技术的发展. 本文结构如下:第1部分介绍维吾尔语语音数据库建设的相关研究成果,第2部分介绍THUYG-20 数据库,第3部分介绍基于 THUYG-20 的基线系统构建和识别结果,最后在第

4 部分给出总结.

1 维吾尔语语音数据库研究现状维吾尔语语音识别研究已经取得了一系列研

1 http://www.openslr.org/12/ 究成果,如[1,2,3,5,6,11].在研究过程中,学者们大多录制自己的数据库并在此基础上发表研究成果. 本节对当前已有的数据库做一总结. 文献[1]中所使用的数据库由

171 个发音人组成,其中男性

85 人,女性

86 人,发音文本从前后

30 天的新疆日报(维文版)中选择

1200 个句子. 文献[2]中的数据库包括男女发音人各

10 人,1200 句用于训练,30 句用于测试.文献[3]用男女各

4 个人的语音数据进行训练,其余

2 个人用于测试. 文献[4,16]中的数据库由音节、词语、语句、数字和常用符号等

5 个数据库组成.文献[5,19,21, 22]用356 人(189 女167 男)128 小时的维吾尔语朗读式语音数据,选择男女各

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 六、投标产品报价清单
上一篇: 行政专家组裁决案件编号：DCN-1500640

PDF《THUYG-20：一个免费的维吾尔语语音数据库*》