编辑: NaluLee | 2016-04-23 |
com
1 LD3320 声控智能产品语音界面设 计指南 ICRoute 用声音去沟通 VUI (Voice User Interface) Web : www.icroute.com Tel : 021-68546025 Mail: [email protected] [email protected]
2 目录 一.简介
3 二.语音识别技术 ASR 的技术特点说明
3 1. 语音识别 ASR 技术的主要特征:3 2. 语音识别技术是基于特征匹配的技术
3 3. 说话内容不在列表中所引起的误识别
4 4. 语音识别应用的适用原则
5 三.语音识别产品设计的思路
5 ? 用垃圾词语吸收错误,防止其他话语误触发
5 ? 用发音相近词语来增加识别的容错性.5 ? 需要精确识别的场合,尽量使用触发识别模式,或者口令触发模式 .
6 ? 设计合理的确认流程
6 四.语音识别产品界面设计案例
6 1. 声控电视遥控器―按键触发模式
6 2. 声控咖啡机―― 按键 触发模式:结合产品特性来合理触发 .....
7 3. 声控智能家居控制――口令触发模式:设置合理确认流程
10 1) 设置前置口令,第二级说 操作+设备
10 2) 把操作(打开/关闭)作为口令,第二级说 设备
12 3) 第一级循环识别 操作+设备 ,第二级说 确定
13 4. 声控智能固定电话―――按键触发模式
14 5. 声控智能医疗护理产品――口令触发模式与按键触发模式相结合 ..
3 一.简介 随着开发者对于 ICRoute 公司提供的语音识别芯片的开发深入,更多的讨论 集中在如何在产品中应用好语音识别芯片. 尤其在目前的声控智能家居系统中,如何使用 LD3320 语音识别芯片完成实 用的语音用户界面(VUI, Voice User Interface) ,成为技术开发者讨论的中 心问题. 本文从语音识别技术的概念出发,结合目前在实际产品中的具体设计理念, 给出了几种在智能家居系统中实用的声控界面设计. (有关语音识别芯片 LD3320 的各种技术资料请至 www.icroute.com 阅读和下载) 二.语音识别技术 ASR 的技术特点说明 语音识别技术 ASR(Auto Speech Recognition)是基于关键词语列表的识别 技术. (http://www.icroute.com/web_cn/Tech_ASR.html ) 1. 语音识别 语音识别 语音识别 语音识别 ASR 技术的主要特征 技术的主要特征 技术的主要特征 技术的主要特征: : : : ? ASR 只能识别设定的关键词语列表中的词语 ? ASR 不是听写系统 ? ASR 不能把人的声音转换为确定的拼音串 ? ASR 不能任意地识别人的说话内容 ? ASR 不能识别关键词语列表中的某个关键词语的一部分内容,除非这 一部分内容自身也是一个关键词语 ? ASR 不可以识别与关键词语列表中列出的关键词语不相符的情况 ? 比如,前后加了 嗯 , 阿 之类的语气词 ? 比如,只说出了关键词语中的一部分而不是整个关键词语 ? 比如,没有列在关键词语列表中的词语 2. 语音识别技术是基于特征匹配的技术 语音识别技术是基于特征匹配的技术 语音识别技术是基于特征匹配的技术 语音识别技术是基于特征匹配的技术 LD3320 作为非特定人语音识别技术的芯片,也是遵循了语音识别 ASR 技术 的原理: (http://www.icroute.com/web_cn/LD332X_principle.html ) : 把通过 MIC 输入的声音进行频谱分析->
提取语音特征->
和关键词语列表中的 关键词语进行对比匹配->
找出得分最高的关键词语作为识别结果输出. [email protected]
4 这个也是目前世界上所有作 ASR 技术所遵循的原理. 从这里可以看到,语音识别并不是一个精确的识别,不能象在文档中搜索字 符串一样作到精确匹配. 因为语音识别是在识别列表的各个关键词语之间取 得分最高(也就是最有 可能最相似的意思) 的关键词语,作为识别结果(或者是识别结果的最佳候选 之一) . 因此,学术界定义 识别率 时,是描述的当用户说的内容是在识别列表规 定的范围内,可以达到识别率. (说明识别率是 90%或者以上,都是按此定义) 语音识别并不存在一个把声音识别成拼音串的过程,而是直接用特征和特征 进行匹配,打分,和得到结果. 因此, 语音识别的识别体验, 除了和外在因素, 比如说话人的说话清晰程度, 麦克风录音质量,周围环境干扰等因素相关. 也和内在因素,也即语音用户界面 VUI 的设计相关,具体说就是识别列表自 身的内容和逻辑的设计相关. 本文主要探讨一些语音用户界面设计的思路和方法,以及案例介绍. 3. 说话内容不在列表中所引起的误识别 说话内容不在列表中所引起的误识别 说话内容不在列表中所引起的误识别 说话内容不在列表中所引起的误识别 当用户说的内容是不在识别列表内的时候,此时必然会引起误识别. 由于语音识别 ASR 技术是基于关键词语列表进行匹配打分的技术,所以对输 入的任何声音,都会去提取特征,并和设定的关键词语列表中的词语进行比对打 分.不在识别列表内的发音,有可能会和识别列表中的某一个词汇很接近,同时 又和其他词汇很不接近,此时就会产生误识别. 举例说明,当关键词语列表中全部是单音节时,比如你设定了