【PDF】用声音去沟通 VUI (Voice User Interface) - 资源下载

编辑：

棉鞋

2013-04-08

三、、、、语音识别芯片的工作原理语音识别芯片的工作原理语音识别芯片的工作原理语音识别芯片的工作原理 (本节是讲述语音识别芯片相关的技术原理,用户也可以浏览

第五节直接运行评估板的 Demo) LD3320 提供的语音识别技术,是基于关键词语列表的识别技术,关于 ASR 技术的详细说明,请参考网站:http://www.icroute.com/web_cn/Tech_ASR.html. 语音识别芯片完成的工作就是:把通过 MIC 输入的声音进行频谱分析->

提取语音特征->

和关键词语列表中的关键词语进行对比匹配->

找出得分最高的关键词语作为识别结果输出. 语音识别芯片能在两种情况下给出识别结果: 1) 外部送入预定时间的语音数据后(比如

5 秒钟的语音数据),芯片对这些语音数据运算分析后,给出识别结果 2) 外部送入语音数据流,语音识别芯片通过端点检测 VAD(voice activity detection)检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果对于第一种情况,可以理解为设定了一个定时录音(比如为

5 秒钟),芯片在

5 秒钟后,会停止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果. 对于第二种情况,需要了解 VAD 的工作原理: VAD(Voice Activity Detection) 技术是在一段语音数据流中,判断出哪个时间点是人声的开始,哪个时间点是人声的结束.判断的依据是,在频谱分析 Mic 语音流提取特征语音识别器关键词语列表识别结果拼音串 MCU 动态编辑识别列表 LD3320 语音识别芯片 info@icroute.com 第页5背景声音的基础上有了语音发音,则视为声音的开始.而后,检测到一段持续时间的背景音(比如

600 毫秒),则视为人声说话结束. 通过 VAD 判断出人声说话的区域后,语音识别芯片会把这期间的声音数据进行识别处理后,计算出识别结果. 需要说明的是,除了以上两种情况外,语音识别算法无法主动地判断出是否识别出了一个结果.这是因为,在计算的过程中的任何时刻,语音识别器都会对已送入识别芯片的声音数据进行分析,并根据匹配程度为识别列表中的关键词语进行打分,最匹配的打分最高. 但是,由于识别算法不知道用户后面是否还继续说语音,所以无法主动地判断已经识别出一个结果. 比如,识别列表中有两个关键词语分别是李晓和李晓明 ,当用户说到晓这个音节时,在识别芯片内部是李晓的得分最高,但此时识别芯片是无法给出识别结果.随着用户说出明音节后, 李晓明则成为得分最高.此时,用户停止说话,或者是定时录音已到,使得识别芯片可以判断出用户已经停止说话了,才能给出识别结果是李晓明 . 四四四

四、、、、语音识别芯片用户使用模式语音识别芯片用户使用模式语音识别芯片用户使用模式语音识别芯片用户使用模式用户可以通过编程,设置两种不同的用户使用模式: 触发识别模式和循环识别模式 : 触发识别模式触发识别模式触发识别模式触发识别模式: : : : 系统的主控 MCU 在接受到外界一个触发后(比如用户按动某个按键),启动LD3320 芯片的一个定时识别过程(比如

5 秒钟),要求用户在这个定时过程中说出要识别的语音关键词语.过了这个过程后,需要用户再次触发才能再次启动一个识别过程. 循环识别模式循环识别模式循环识别模式循环识别模式: : : : 系统的主控 MCU 反复启动识别过程.如果没有人说话没有识别结果,则每次识别过程的定时到时后再启动一个识别过程;

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《用声音去沟通 VUI (Voice User Interface)》