首页 调查 > 正文

让麦克风学会找“主人”,华为云会议让通话体验再进化!

我们的耳朵天生具备一项神奇的能力:比如在嘈杂大街上,当一位你感兴趣的人说话时,周围的人声、汽车声等仿佛瞬间调低了音量,整个世界都“安静”了下来……但当时如果你拿录音笔把现场的声音录制下来并事后回放,却会发现各种声音交织在一起完全听不清说话内容。

这其实是声学领域中经典的鸡尾酒会问题(Cocktail Party Problem)。如果将这个问题放到线上会议场景,麦克风就像录音笔,我们该如何让它准确地找到目标声音呢?


(资料图片仅供参考)

当我们进行线上会议时,糟糕的通话质量,不仅影响会议效率,更会让参会者疲劳感陡增。因此,“听得清”是我们对会议体验的基本诉求。

云会议时代,因为接入环境、接入设备变得复杂多样,叠加互联网传输条件的不可控性,让“听得清”面临更多的挑战。比如当我们在咖啡馆、车厢、嘈杂的工位等环境下接入会议,诸多的干扰噪音会严重影响拾音效果。哪怕是在安静的会议室中,也会因为玻璃墙面、大理石地面带来复杂的混响问题,因为现场大屏、笔记本,手机等同时入会带来的回声问题,因为远端和本地同时讲话带来的双讲剪切问题等,导致通话声音不清晰。

针对以上问题,华为云会议通过VQE3.0算法进行全流程多重处理,利用AI去混响,AI降噪、AI-VAD人声检测等技术,有效提升了音频通话体验。

视频加载中...

通过这一系列技术方案,华为云会议解决了会议中常见的声学问题,但还有一类问题待解决,那便是周围人声干扰问题。比如当你在工位上接入会议时,你旁边的小伙伴可能也正在另一场会中专注且富有激情地讨论着,而这时的AI降噪尽管可以去除键盘声等噪音,但不会去抑制人的声音。

所以回到开头的问题,当置身现场时,我们是双耳拾音,在人类复杂的心理和生理因素作用下,我们轻松具备了选择声音的能力。但对于计算机来说,当它面对一段由单话筒收录的,多人语音交叠在一起的音频流时,它并不清楚谁的声音需要被保留,谁的声音需要被抑制,只能“照单全收”。那我们到底该如何训练我们的麦克风,让它可以像人耳一样将目标声音与所有其他说话者和噪音隔离开来?

近期,华为云会议“屏蔽周围人声”功能上线,这个问题终于得到了有效的解决:通过PNR算法,可以提供特定人降噪功能,该算法主要分为语音注册和实时语音处理两部分。功能启用前,用户只需对着麦克风录入一段15秒左右的声音即可完成语音注册。 功能开启后,华为云会议即可在会中实时“捕捉”该用户的声音,同时将其他人声和各类噪音进行抑制。

通过以下音频,我们可以很直观的感受到到效果。

视频加载中...

通过以上介绍,我们可以了解到,“屏蔽周围人声”可以与此前的”AI降噪”做到良好的互补:在会议室开会的场景中,一方一般不会出现多人同讲的情景,此时打开AI降噪,可以有效抑制键盘声、杯子撞击声等干扰噪音;而在单人使用客户端入会的场景,“屏蔽周围人声”就可以发挥其最大价值。

视频加载中...

华为云会议,通过在音频领域不断地进行技术演进,致力于为用户提供高清、纯净、流畅的通话体验,让线上会议“说得顺畅”,“听得清晰”,“开得高效”!

关注 ,了解更多资讯

标签:

精彩推送