图片56
迅速收敛问题,帮助开发提高定位与修改问题的效率;掌握产品稳定性,掌握工艺原理与界限,可以迅速输出稳定的产品服务。这一点不管对C端用户还是B端用户都是最基本的要求。下面我们来看一下用户使用语音中控设备的智能灯泡:
声控智能家居流程。
使用者发出“开灯”的指令时,要执行以下几个步骤:
1、拾音
按照使用场景也可分为近场拾音(一般3m以内)和远场拾音(一般3-5m)。这个部分从技术上来说叫做声音前端。
其基本思想是可以通过单个mic或mic阵列精确地获取用户的语音信息,为后续的ASR(语音识别)做准备。其主要内容有以下几个方面的技术要点,但不限于,整个环节涉及许多技术环节,以下是与以下产品经验比较相关的主要技术点:
VAD(Voice Activity Detection),语音活动检测。利用声学特性等进行分析,找出声源的起点。对产品而言,经常会遇到的一些指令没有全部识别,如“开灯”只识别到“打”,结果未命中相应技能,不能完成用户意图,此时可能是VAD异常截断问题;
回声消除AEC(Acoustic Echo Cancellation)。当当前设备正在以mic拾音器播放音乐等音频内容时,那么mic就会重新重新收听该设备播放出来的声音,以避免再次播放出回音。对产品而言,这是检验智能语音设备声音播放功能必然要考核的一个体验点,如音乐播放时经常有回音问题,那么很可能是AEC算法没有做好;
BF(Beam Forming),波速成型。在单一方向强化语音,减弱无关声音,使声音听起来更清晰。对产品而言,这是在噪声环境中提高识别的核心技术,如果噪音环境中您的产品识别能力不强,可从这一点着手。
2、ASR(Automatic Speech Recognition)
此步骤主要是将前端拾音中的语音信息转换为文本信息,将处理过的文本信息交给NLP(自然语言处理)进行处理。主要检查指标识别率和误判等。
3、NLP(自然语言处理)(语言处理)
NLP的目标主要是把文本信息转换成机器语言,明确用户的意图,为下一步,触发用户期望的意图做准备。主要由以下几个方面组成:产品运营方面:
Domain,也就是相关的领域,比如音乐、智能家庭都是独立的领域。范围等同于分类,例如,我想创造一种电视控制技巧,首先要做一个电视节目;
Intent,也就是意图,用户希望计算机能够完成的工作。正如本章“开灯”这一例子,“开灯”就是使用者的行为意图,但相同的控制意图可能会有不同的说法,例如,“开灯”可以说,“开灯”或“开灯”这段时间需要引进一种叫做Pattern、这位产品操作员可以用一些常见的句式或者陈述来解决不同的陈述和陈述,再利用算法进行计数与推广;
slot,也就是词槽,在这种情况下,“开”和“灯”都是词槽。
4、平台转发。
IoT音像厂商IoT平台→厂商IoT平台→厂商设备。由于智能家庭领域比较特殊,从用户维度来说,一位用户可能拥有多种不同品牌的智能家居设备;而从市场维度来看,目前智能家居市场品种繁多,碎片化严重。
最后将NLP的处理信息传送到语音供应商IoT平台,IoT平台将基于用户已绑定的智能家居品牌和设备功能,然后把这些信息传送到相关的三方供应商IoT平台,最后将控制信息发送到相应的控制设备上,完成整个控制链。
最后一步,TTS(Text To Speech)。
正如其名称所示,将文字转换为语音,如果您的中控设备带Speaker,在整个控制链完成之后,就可以播报结果语音,提升整个产品体验,完成体验闭环。