麦克风相信大家都见过,就是我们常见的话筒,麦克风阵列本质上和话筒没有区别,只是收音的单元比较多而已,基本上超过两个收音孔就可以说是麦克风阵列了。麦克风阵列是由一定数目的声学传感器(麦克风)按照一定规则排列的多麦克风系统,对声场的空间特性进行采样并滤波的系统。麦克风阵列除了看到的麦克风数量以外,还有一系列的前端算法,两者结合的系统才是完整的麦克风阵列。而麦克风阵列也只是完成了物理世界的音频信号处理,想要完成语音识别,还是需要云端的ASR模型,两个系统配合在一起才能得到最好的识别效果。
我们对于麦克风阵列的分类,常常参考麦克风的布局和数量。目前常见的分类,基本上以麦克风布局的形状来做区分,参考我们中学课本讲的点线面体,可以将麦克风阵列分为:线性阵列,平面阵列,立体阵列(点就是一个麦克风)。常见的是两个麦克风的组成的线性阵列,目前几乎所有中高端手机和耳机都采用双麦克降噪技术来提升通话效果,也有部分智能音箱采用这种方案。两个麦克风组成的线性阵列最大的优势就是成本低,相对于多麦克风,功耗也更低。缺点也比较明显,降噪效果有限,就是对于远场景交互的效果并不好。平面阵列的组合就比较多样化,常见的有4麦阵列和6麦阵列,还有升级的4+1麦阵列和6+1麦阵列,甚至8+1麦阵列。平面阵列常见于智能音箱和语音交互机器人上面。
说了这么多,那么麦克风阵列到底有什么作用呢?人类可以通过声音判断发声的方向,机器人也同样可以做到。这个功能就是声源定位,通过声音感知人所在的方向,从而实现对目标声源方向的跟踪。这也为后续的波束形成做技术铺垫。如机器人场景,我们在机器人左边叫它,机器人听到声音后就会把头转向左边,我们在机器人背后叫它,机器人听到声音后就会转过去,这就是声源定位最典型的应用。通常声源定位会应用在语音唤醒阶段,能够检测一个大致的方向。在语音识别中,语音信息中往往夹杂着噪音,常见的有环境噪音和人声干扰,通常不会掩盖正常的语音,只是影响声音的清晰度。麦克风阵列主要通过波束形成技术,来抑制噪音,增强人声。可以理解为只识别某个角度的声音(一般角度可以进行调节),其他角度的声音都会受到抑制,从而实现抑制噪音的目的。反过来也可以增强角度内的人声,就是增强人声,抑制噪音。
在某些场景,发音会有回音,人能听到的是17米左右距离返回的回音。但是机器的感知要比人敏感的的多,如果不做处理,就会出现一句话叠加识别的情况。混响常指声波在室内传播时,被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加的现象。比如在演播厅,我们能够感受到较为明显的回音,机器同样能够识别到这些回音。混响消除就是消除之后带来的回音,只识别第一遍的内容。解决了这些问题,基本上就可以在日常环境下进行一个正常拾音,从而保证整个语音识别的正常。
那么该如何选择适合自己的麦克风阵列呢?当下市面上可选的麦克风阵列方案比较多,纵观国内生产主攻麦克风阵列的厂家也就联丰讯声的会挤压全场,无论是2mic还是16mic亦或是32mic,都是是他们的擅长的地方。如果只需要近场景收音,需求仅限于拾音,建议单麦就可以,如果是想要实现类似通话降噪这种效果,2麦的麦克风阵列就可以满足需求,再多价值不大;如果是想要去除大部分噪音,建议使用4个以上的麦克风阵列,还要考虑前端降噪算法的能力。
联丰讯声技术团队在声学相关的软件算法与硬件开发上积累了丰富的行业经验,并多次参与国际音频分类大赛,名列前茅,是国内为数不多同时自主掌握声呐硬件设计与软件算法开发的团队。在语音交互普及的今天,联丰讯声消费级麦克风阵列主要解决远场景交互的音频识别问题,保证真实场景下的音频识别率。