编辑: 旋风 2019-07-11
NCMMSC2015 中国天津

2015 年10 月THUYG-20:一个免费的维吾尔语语音数据库* 艾斯卡尔・肉孜

1 ,殷实

1 ,张之勇

1 ,王东

1 ,艾斯卡尔・艾木都拉

2 ,郑方

1 (1.

清华大学语音和语言技术中心;

2.新疆大学信号与信息处理重点实验室) 文摘:语音数据资源是语音识别研究的基础.当前国内几乎没有开放的语音数据库供研究者免费使用,特别是在少 数民族语音识别方面,数据资源更为贫乏.本文公开一个免费的维吾尔语连续语音数据库,该数据库包括约

20 小时 的训练数据和

1 小时的测试数据.我们同时公开了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相 关资源,公开了用于构建基线系统的脚本,给出该基线系统在纯净测试数据和噪音测试数据上的识别性能. 关键词:维吾尔语;

语料库;

语音识别;

DNN;

中图分类号: TP39 语音数据库是进行语音识别研究的基础.国际 上比较著名的几个数据库包括 RM, Aurora, TIMIT, WSJ, Switch Board 等.这些标准数据库使得研究者 可以在同一标准下比较自己的研究方法,因而极大 推动了语音识别技术的发展.然而,这些数据库都 需要付费才能使用,限制了初学者对语音领域的涉 足.这一状况目前有所改变,出现了如 LibriSpeech 等可以免费使用的数据库资源1 . 相对而言,国内的数据库标准化工作十分薄 弱.到目前为止,国内用于语音识别研究的只有为 数不多的几个数据库为研究者公认,如汉语

863 数 据库.少数民族语言的数据库建设还处于空白阶 段,仅有的几个数据资源由研究者独立录制,规模 小,缺乏统一标准,普及面窄.特别是,这些有限 的资源共享性差,免费数据资源几乎没有.这一现 状极大制约了我国语音识别研究的发展. 本文公开一个约

20 小时的维吾尔语语音数据 库(THUYG-20)供研究者免费下载使用.特别是, 我们提供了用于构建完整语音识别系统的所有资 源、代码、流程,提供完整的训练和测试标准,提 供基线系统的识别结果,提供可重现的自动脚本. 我们期望通过这一数据库和基线系统的公开,可以 吸引更多对语音识别研究感兴趣的学者,促进学术 交流,推动国内语音识别,特别是维吾尔语语音识 别技术的发展. 本文结构如下:第1部分介绍维吾尔语语音数 据库建设的相关研究成果,第2部分介绍THUYG-20 数据库,第3部分介绍基于 THUYG-20 的基线系统构建和识别结果,最后在第

4 部分给出 总结.

1 维吾尔语语音数据库研究现状 维吾尔语语音识别研究已经取得了一系列研

1 http://www.openslr.org/12/ 究成果,如[1,2,3,5,6,11].在研究过程中,学者们大 多录制自己的数据库并在此基础上发表研究成果. 本节对当前已有的数据库做一总结. 文献[1]中所使用的数据库由

171 个发音人组 成,其中男性

85 人,女性

86 人,发音文本从前后

30 天的新疆日报(维文版)中选择

1200 个句子. 文献[2]中的数据库包括男女发音人各

10 人,1200 句用于训练,30 句用于测试.文献[3]用男女各

4 个人的语音数据进行训练,其余

2 个人用于测试. 文献[4,16]中的数据库由音节、词语、语句、数字 和常用符号等

5 个数据库组成.文献[5,19,21, 22]用356 人(189 女167 男)128 小时的维吾尔语 朗读式语音数据,选择男女各

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题