邓滨:信号处理+深度学习才能实现语音交互

  • 时间:
  • 浏览:0

第二条路径表示的是机器进行声音拾取的过程,首先需要用于声音拾取的麦克风,在这里麦克风拾取的是模拟信号,系统需通过信号处里对模拟信号进行模数转换,从而获得声音的数字信号;与人类听觉系统累似 于,接下来通过数字信号领域的一系列放大、降噪、回声一致等处里,声音的清晰度与信噪比会得到显著提升,最终那此声学数字信号会被传输至机器的大脑,如淬硬层 学习或自然语言理解系统从而被转去掉 机器可需要理解的指令。与人类的听觉系统不同,这里的麦克风明显不具备人耳的耳廓、耳道等形状,无法对声音信号进行有效的前期处里,只能最大限度地实现不失真拾音。以后 大伙需要在麦克风拾取原始声音的基础上进行相应的优化也要是 我语音“前”处里,都都还都可不可以得到能够机器学习理解辨识并作出正确反馈的声学信号。

回声问题图片

最好的依据是针对4个 干扰模型进行血块训练。累似 于在训练最初时向语音识别系统输入血块加噪的语料,这里的“加噪”是指加入明确希望去除的噪声类型如风噪、汽车噪声等。将此噪声提前模拟并加入训练后得到的识别系统可准确识别此噪声的声学形状,要是 让我可得到都都都还都可不可以识别并处里真正含有此噪声语料的语音识别系统,增强它的鲁棒性,更有效地去除平稳噪声对有效语音的影响。

大伙好,今天与大伙分享的是新潮AI硬件中的传统语音信号处里技术。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/8210004828

Q:远场单通道降噪对于收益率有何影响?

以《钢铁侠》电影中的场景为例,在实际应用中,人机语音交互面临着诸多多样化的场景:

2、那此是语音前处里

大伙熟知的语音信号处里主要被应用于通信系统,而通信系统的设备发生4个 较为可控的应用场景中,累似 于从最早的座机、固定电话到现在的移动电话,而移动电话也是从模拟信号发展到到数字电话时代,整体主要服务于包括军用步话机在内的通信场景。大伙以手机为例,手机有两种通讯模式:手持、免提、插线耳机以及蓝牙耳机。对于语音信号处里来说,经过业界几十年的探索,这几种模式的发展都比较心智心智心智性性性成熟期是什么是什么期期,大伙肯能摸索出了应对这几种通讯模式较为典型的语音算法,累似 于免提模式下要怎样降噪,手持模式下可用手机多个麦克风进行降噪等。

Q:智能音箱的扬声器音量是是不是只能过大,以后 会造成强非线性影响AEC?

第四问题图片图片是混响问题图片。当将此设备摆放进去去墙角或较为空旷的房间时,用户发出的有效指令声经过此房间的墙壁折射反弹多次后被设备的麦克风拾取,麦克风会收到混合在共同的多个不共同间延迟下的指令声音,两种混响多次的指令也会为语音识别带来巨大干扰。

即使绝大多数非平稳噪声无法被捕捉形状,但仍然发生血块非平稳噪声可被捕捉到形状,大伙可需要通过淬硬层 学习训练处里这要素非平稳噪声的干扰问题图片。

Q:前端使用那此去噪算法?

4、 语音前处里的变革演进

A:通常降噪有以下几类最好的依据:

第三问题图片图片是远场问题图片。用户距离智能音响比较近时可获得较为准确的语音识别体验;而一旦用户距离智能音响较远,其语音交互的性能就会急剧下降并影响用户使用智能音箱的良好体验。

综上所述,淬硬层 学习可需要处里平稳噪声问题图片与要素非平稳噪声和混响问题图片,以后 充足其语料模型从而达到良好训练效果的工作量很大;而通过淬硬层 学习并只能妥善处里并不具备恒定形状的远场、回声与声源定位问题图片,大伙无法从这三者中提取有价值的模型形状的。语音识别问题图片归根结底是信噪比问题图片,大伙可需要把所有的干扰都视为影响原始语音信号信噪比的噪声,当信噪比不佳时系统无法从声音中提取有效信号的声音模型,语音识别就无法成功。

4、语音前处里的变革演进

直播回放:

上图是美国著名科幻电影《钢铁侠》中的几个场景,可需要说这部电影全面展现了未来先进人机语音交互的强大魅力。在电影中,主角托尼·斯塔克拥有一套又名“贾维斯”的虚拟智能管家,无论是在家中还是户外,抑或是身披战甲时托尼都可随意与其对话并发号施令,而这位虚拟管家的回复之自然如同一位真实发生的伙伴,不仅对命令的理解准确无误,还能对托尼的有些比较无厘头的笑话做出与真人累似 于的公布,两种强大的交互能力让每一位看过此片的观众都期待都都都还都可不可以在现实中也拥有一位要是 我的虚拟智能管家。实际上依赖当前的科技水平,在真实生活场景中实现沒有自然的对话,仍是一件非常困难的事情。本次分享过多再涉及过多有关淬硬层 学习、神经网络、知识图谱的技术范畴,要是 我会过多讨论诸如ASR、IOP等有关自然语言理解能力的技术,要是 我主要关注语音信号的拾取优化,可需要进一步提升未来自然语音交互的识别能力。

肯能以现实生活场景为例,用户与一买车人工智能硬件设备进行人机对话会面临那此样的影响呢?

混响问题图片:要素处里

架构设计 / LiveVideoStack

https://www.baijiayun.com/web/playback/index?classid=110008293310004314&session_id=201100081000&token=HK8TUrosMf1t681rrJ0J_R1l3G4xGeRN6oakZ-l2IE6PADGtWOcHnW7r6LCYJ0wMkavU9LZ3eZYKp0fXMnVKLQ

上图展示的是4个 包括客厅、书房、阳台、各种家具在内的非常典型的普通家庭场景,其中发生多种都都都还都可不可以为语音交互带来干扰的环境因素。累似 于来自厨房灶台的包括水流声、油烟机噪声、炒菜洗碗杂声在内的各种噪声;客厅中的人交谈说话、儿童游戏打闹的噪声;还有因远场和房间角落造成的混响,房间中的家用电器如空调、风扇、吸尘器、电视、音响等等发出的强烈噪声,窗外传来的包括汽车声、风声、雨声雷声在内的户外噪声等等。即使大伙实现了在理想环境中智能语音交互的强大性能,一旦在实际应用中涉及到如远场噪声、回声等问题图片,人机交互的性能就会急剧下降。

2.2 意义

综上所述,生活中的种种干扰因素时会 对人机语音交互的性能造成很大的不利影响,而有些干扰因素就目前技术而言,是无法从根本上处里的。肯能将近场、无噪声、无回声、无混响等理想环境下的语音识别作为天花板,沒有不同厂商探索的在干扰环境下的高性能语音识别方案,则是致力于要怎样在恶劣环境下更接近这层天花板。

肯能大伙取舍了某房间的混响模型,累似 于这间房间的空旷程度、长宽高、墙壁的材质、设备在房间中摆放的位置等,沒有声音在此房间中传递、反弹再传递到设备的时长、混响效果与混响模型要是 我取舍的,就能将其结合淬硬层 学习从而处里混响问题图片;肯能那此场景发生了改变,沒有相对应的混响模型就需要进行改变。

上图是大伙使用世界上最著名的智能音箱之一 Amazon Echo 测试在不同噪声场景下唤醒性能波动的结果,测试最好的依据如下:大伙使用一百次1000%可用的测试用例(在安静环境中距离设备非常近的条件下播放一百次唤醒指令并确保Echo唤醒成功率为1000%。则视此测试用例是可用的),并分别测试了去掉 七种不累似 于型噪声:安静、轻音乐、激烈歌曲、新闻联播、雷雨声、客厅综合噪声、厨房灶台综合噪声;共同把声源与Echo之间的距离控制在1m与3.5m4个 距离量,进行唤醒测试并统计其唤醒成功率。通过测试可需要发现,在安静的环境中,距离Echo 1m时唤醒成功率可保持91%左右,3.5m时则下降到72%;而在后续各种不同噪声环境中,Echo的唤醒性能急剧下降。实验结果基本验证了前一天的推测:真实生活场景中的各种环境条件,的确会对人机交互识别造成不利影响。除了Amazon Echo,大伙还测试了Google Home以及国内的有些智能够手。除了以上环境变量之外,大伙还取舍了回声、远场、混响、不同淬硬层 等干扰场景,得到的性能曲线时会 累似 于的。

平稳噪声:可需要处里

总结来说,要是 我要是 我端的信号处里与后端的识别4个 层面进行系统性的综合优化,都都还都可不可以实现大伙期待的与人工智能自然交流的美好愿景。

1)滤波器降噪:两种较为典型的方案,主要通过如维纳滤波要是 我的自适应滤波对声音进行降噪。

除了以上新型智能音箱人机对话与传统通讯工具手机电话之间的明显差异,人脑对语言的理解与机器之间也发生不小差异。传统的通信是人与人之间的交流,而语音识别则是人与机器之间的交流,二者本质上发生很大差别。任何的信号处里过程时会 破坏语音信号声学形状,我知道你人都都都还都可不可以成功识别两种破坏后的信息但机器却无法处里。因而大伙需要在传统通信的语音信号处里基础上进行改进和创新,不为什么在么在优化匹配语音识别的形状要求,从而让我工智能硬件既能听清楚都都还都可不可以讲明白,这也是每该人工智能硬件厂家核心科技之所在。

A:是的,这涉及到硬件的选型问题图片。大伙知道较昂贵的扬声器其声音形状也会更出色,主要体现在线性优秀、底噪更低、失真更小、信噪比更高等。但肯能受到产品的限制大伙往往无法取舍性能沒有优秀的扬声器,因而扬声器的播放响度控制在不失真的范围内。肯能一味地追求声音大而使播放出的声音信号被麦克风吸收使得频谱失真或造成非常强的非线性,沒有从算法层面上来说先要处里由此带来的影响。我认为应该尽肯能调试好扬声器的声学参数或从硬件选型进行控制从而达到4个 音量与音质的平衡。

1、 智能硬件语音交互的现实障碍

第五问题图片图片是声音定位。围绕在此设备附进31000度空间内的任何方位时会 肯能成为用户指令的声源位置,声音定位的目的要是 我瞄准用户指令声源所在的淬硬层 并进行波束集中,有效提高声音拾取的准确性。

第二问题图片图片是回声问题图片,累似 于4个 智能音箱正在播放歌曲,此时音响上的麦克风也正在工作并发生随时守候被主人唤醒的待命具体情况。这时,用户会希望与智能音箱进行语音交互时麦克风过多再混淆拾取到的买车人发出的指令声与音响喇叭放出的音乐声,此时对于用户发出的语音指令来说此音箱喇叭发出的声音就被称为“回声”;在实践中音响需要滤除此回声并保留来自用户有效的指令声都都还都可不可以对用户的指令做出正确反应。我知道你有些人会认为这与噪声累似 于,实际上二者并不一样,处里最好的依据要是 我尽相同。

接下来我肯能讲述信号处里与淬硬层 学习的关系。可需要说这两者中的前者是是不是传统学科,后者是是不是前沿学科。首先需要提出以下几个问题图片:淬硬层 学习+大数据可需要处里所有的语音干扰问题图片?淬硬层 学习时代的前端数字信号处里技术是是不是肯能过时?淬硬层 学习是数字信号处里的终结吗?仅针对干扰的模型训练都都都还都可不可以有效识别并去除干扰吗?前一天我参与了有关淬硬层 学习时代信号处里沒有意义的讨论,对此观点的结论是是不是定的。

当用户使用手持模式拨打电话时主麦靠在嘴边而副麦朝向外界,当外界环境充斥噪声时主麦玉副麦时会 收到有效语音与噪声的混合声音,但对比4个 麦克风,主麦收到用户的有效语音信号更强而副麦收到外界的噪声更强,使用谱减法将主麦收到的声音减去副麦的噪声,留下的要是 我有效信号;再放大有效信号即可得到清晰的语音。而智能硬件无法使用副麦降噪,肯能使用单麦沒有大伙可借助滤波与噪声估计,用估计出噪声的频谱与此噪声对比,并使用普减法从原始信号中消除噪声频谱。在这里需要强调的是大伙的降噪处里最终的接收对象是谁。肯能是给机器则只能破坏原始语音的声学形状,需要把降噪控制在一定的程度内。

A:两年前大伙的小鱼在家产品就使用了单麦克风并实现降噪与语音信号放大、回声抑制、远场增强等一系列功能,提升十分明显。大伙曾使用讯飞的语音识别引擎与标准接口进行对比实验,在沒有去掉 任何有些处里算法的具体情况下使用讯飞识别引擎测试近场拾音,其准确率可达到1000%,一旦将距离增加到1m~3m的远场,识别率会大幅度降低至1000%~10%;而肯能去掉 远场单通道语音增强算法,可将3m时10%的准确率提升至70%左右,收益十分明显。单麦算法的使用需要结合不同场景,肯能现在绝大多数智能音箱为了比拼识别准确率都用麦克风阵列,在成本上则会带来很大压力,单麦算法在小型设备或低成本设备的应用前景十分广阔。

第一问题图片图片是噪声问题图片。噪声分为平稳噪声是是不是平稳噪声,平稳噪声指的是形状相对平稳,以日常生活中的有些如白噪声、驾驶汽车匀速行驶时发动机的声音、风噪等频率形状、时变形状比较平稳的理想噪声为例;而非平稳噪声则与之相反,比较典型的例子是人说话声、KTV音乐等等。

大伙所谓的人机语音交互实际上是两种仿生模拟,上图第一条路径表示的是人类通过生理器官进行拾音的过程。人耳的生理构造包括耳廓、耳道、鼓膜等,外界的声波传播至耳朵,耳廓架构设计 声波后通过耳道将其传播至鼓膜并引起鼓膜振动,鼓膜振动使声音信号通过听觉神经传递至大脑,并由大脑对接收到的声音进行辨别。这里需要强调的是,人的生理器官具有多种处都可不可以力,累似 于人的耳廓与耳道具备滤波器的功能,而鼓膜与听觉神经则负责将信号放大,从而易于在声音中提炼有效信息;接下来的高级神经与大脑则具备了声纹识别、自然语言理解等语音识别的功能,最终经过大脑分捡出的有效信息则指导人类根据语言理解驱动正常的行为。

Q&A

2)主副麦降噪:主要运用于手机等手持模式上,使用发生手机下方的主麦克风与手机背面的副麦克风进行降噪。

业界应对那此传统最好的依据时会 比较心智心智心智性性性成熟期是什么是什么期期的方案,以后 面对现在以智能音箱为例的新型人工智能硬件设备来说,其与手机的形状和应用场景完整篇 不同,手机主要用于近场通讯,但智能音箱主要运用在中远距离通讯,且智能音箱上喇叭的功率与其播放的声音带宽比手机高要是 ;使用距离较远就发生我前一天提到的远场声音问题图片,与此共同麦克风所能识别到用户的指令音量也会更小而回声却会更恶劣;肯能智能音箱摆放位置的多样性,其需要面临的混响环境也会更加多样化;即使智能音箱具备多个麦克风,但肯能其是作为4个 远场设备,大伙无法使用副麦进行降噪处里。有信号处里经验的同学肯能对此会比较了解,副麦降噪依赖于手持模式下主麦在用户嘴边而副麦在手机背面,只能当主麦副麦之间拾音差异在6dB以上都都还都可不可以实现副麦降噪,沒有对于远场设备来说副麦降噪并无理论基础。

3、信号处里 & 淬硬层 学习

2、 那此是语音前处里

为那此需要语音“前”处里?上图表示4个 比较典型的语音信号处里过程:首先,大伙将麦克风拾取声音信号的过程称为“听到”,此过程的作用是将声音信息由声波形式转去掉 数字信号形式;以后 声音信息被传输至“语音信号处里”模块,此语音数字信号处里模块的功能是“听清”,也要是 我对接收到的声音信号进行清晰化处里;经过清晰化处里前一天的声音信号会被继续传输至文字信息识别系统,大伙将文字信息识别系统中的处里过程称为“听懂”——从“听到”、“听清”到“听懂”的整体流程要是 我机器模拟人听觉生理活动的过程。在“听懂”要素,系统首先会对信号中的声学形状进行提取,以后 根据前一天整个淬硬层 学习系统经过血块标准语言训练训练得到的声学模型与语音模型进行匹配与解码,最终得到4个 较为准确的文字识别结果。肯能在“听到”阶段沒有清晰拾得目标音频,麦克风拾取到的信号中就会含有大伙上文介绍到的各种恶劣环境影响因子累似 于混响声音、外界噪声、回声、远场声音、衰减声音等等,假如不处里那此混有噪音的声音信号要是 我直接将其送到文字识别系统就难以根据前一天的标准语言训练得到的声学模型对目标声音进行识别与匹配,识别效果时会 大打折扣。因而大伙需要在其中去掉 4个 “听清”的过程,在语音识别前一天加入语音信号处里模块,通常大伙会把这要素流程大伙称为“语音前处里”。

为了进一步验证以上环境因素对智能语音识别系统的影响,大伙使用智能音响进行了测试。

混响问题图片:以“钢铁侠战衣”的密闭空间为代表的应用场景,此场景中声音会产生反弹折射从而造成混响干扰声音拾取。

文 / 邓滨

枪林弹雨的爆炸声:以钢铁侠作战为代表的特殊场景,战斗时附进环境中的爆炸声会对拾音系统产生严重干扰。

沒有那此问题图片可需要用淬硬层 学习来有效处里吗?

风噪、机械振动噪声:以钢铁侠战衣飞行为代表的应用场景,战衣飞行的带宽很慢,其产生的风噪与机械部件摩擦振动的噪声就越严重。

远场问题图片:以托尼的大大别墅为代表的生活场景,要怎样保证托尼在宽敞大客厅中任何4个 角落向虚拟管家下达的指令都能被准确拾取。

2.1 原理

1、智能硬件语音交互的现实障碍

3、 信号处里VS淬硬层 学习

主要内容分为以下4个要素:

非平稳噪声:要素处里

为那此淬硬层 学习不肯能代替信号处里?大伙在现实生活中面临以下几问题图片图片:

接下来介绍的技术是语音前处里。两种技术从何而来?因何而生的?其意义是那此?

讲完了语音信号处里的前世,接下来大伙谈一谈语音信号处里的今生。想必大伙听完前一天的分享,心中肯能会产生4个 问题图片:大伙知道语音信号处里是4个 有着近百年历史的传统技术,沒有传统的语音信号处里技术可需要直接完美地运用于人机语音交互呢?

本文来自小鱼在家首席音频科学家邓滨在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack架构设计 而成。邓滨认为,传统的信号处里与前沿的淬硬层 学习技术结合,都都还都可不可以实现准确的语音交互,缺一不可。