编辑:[db:作者] 时间:2024-08-25 09:24:45
远场语音识别也是 Amazon Echo 的核心技能之一,Echo 的火爆点燃了全体市场,但钱晨见告雷锋网,他并不认为这是“最好的时期”。
1998 年,钱晨在中科院顺利拿到了水下声学博士学位,很长一段韶光,他在北京摩托罗拉研发中央担当电子与声学工程师。
他现在担心的是,百家争鸣背后,“智能音箱”这个观点会被做臭,就像他玩石头从来不碰田黄,由于一说到田黄,他第一反应便是赝品。
以下是钱晨自述,由雷锋网整理。
这么说吧,做前端声音处理的,海内没有高水平的。由于我们这个专业,一年毕业不到 50 个学生,大家都知道,这个水平不会太高。但是美国人比较故意思,美国人做物理比咱们深,物理做深了往后,它就能解开一道道题。
麦克风这个行业,有两个流派。一个是说自己有 6 个、7 个麦克风(Amazon Echo)的那种,叫麦克风阵列;第二个流派便是“两麦”(Google Home)。从这一点出发,不管厂商怎么讲故事,都逃不出这两个。
麦克风阵列流派的缺陷是夹角窄。
展开之前得先谈一谈“波束形成”。波束形成实际上 20 年前就有人做了。军工里的声纳,微波里的智能天线,都是这个技能。
当时大家为什么用波束形成?紧张是由于做电路的时候便是处理各种放大旗子暗记,而波束形成本身便是一个放大旗子暗记,我们管这个放大叫空间增益。对空间场的增益还有一个公式,根据它,能做出很多技能创新来。
亚马逊做 Echo 的时候就用了这个技能。这个技能表示在产品上,便是它能识别声音传来的方向,然后把阁下的声音滤掉,把须要的声音增加了空间增益。比拟到电路上,便是这个旗子暗记的放大倍数多,信噪比好,旗子暗记被放大往后,很干净。
麦克风阵列便是用这个阵列形成一个波束,波束角是 60 度。
“两麦”没有夹角窄这个问题,它也有空间信息,能分辨出来声音是左边来的还是右边来,但它没有增加放大量。
比拟这两个流派,韶光差能解释一些问题。亚马逊 4 年前就在 Echo 上用了波束形成,而“两麦”是去年开始用的,便是 Google Home。以是这两个技能在运用成熟度方面,差了三年到四年。
再往下走就到设备端了。
设备首先要办理的问题便是噪声抵消。比如一个人跟另一个人说话,声音是从四面八方传到耳朵里的,对设备来说,情形也一样。那这就有问题了,有些方向的声音快一点,有些会慢一点,叠加在一起就产生了混响,或者说噪音。
以是麦克风把声音识完往后,剩下的事便是做噪声抵消,让声音信息干净到能让“对方”听到,打算性能力够处理。
现在可以看到,科胜讯、云知声、思必驰,科大讯飞这些公司,它们都说自己有全套办理方案,实际上,“全套办理方案”便是能办理刚才所说的噪声抵消和后面的云端处理。
只有设备里的噪声抵消办理干净了,信息才能传到下一级,去做语音识别。
语音识别海内做得最好的便是科大讯飞,他们最喜好干的便是,每次有人在那儿说话,它给你翻成笔墨。它这个做得很俊秀。但这些笔墨是什么意思?它不管了。由于这已经到了语义识别,而在这一块做得最好的是微软和亚马逊。
总之,可以把语音设备的技能分成三段:一是噪声抵消,二是语音识别,三是语义识别。在语义识别这块,老外比中国人强。
对用户来说,一定是三段都做好才能有所体会,但语义识别是个更难的东西,基本上只有大公司能做,小公司做不了。
我现在认为“智能音箱”快做坏了,便是设备端都没有做好。如果降噪这一块没有处理好,科大讯飞算法再好也傻,识别率就低落,语义识别就更别谈了。
很少有人把稳到一个信息,国家做了一个实验室,希望厂商们把自己的语音设备放到实验室去认证。
它就跟手机一样,手机厂商都会说自己的产品好,但末了必须得过 3C 标准,须要认证。以是大家都说自己好的时候,实验条件是什么?环境条件是什么?他们答不上来的。
声学丈量远比电磁场丈量繁芜,能不能适应繁芜的物理环境才是表示设备水平高低的地方,而那些总拿“能识别几米几米”说事的,消费者都不会买单。
雷锋网拓展阅读:《亚马逊的秘密部队和差点成笑话的Amazon Echo》
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/bx/213718.html
上一篇:郑州市公安局联合阿里巴巴送大年夜礼!智能防走失落定位器发放中
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com