Uploads%2farticles%2f14461%2fdsc5946
|
2020-10-23

新场景下的语音识别,下一步发展方向是什么?| 科大讯飞 1024 开发者节

对语音识别技术的要求将会更高

语音识别应该要持续的去挑战更加复杂的场景,去实现从语音到声音,从单纯的文字内容的识别,到音频的全场景解析。

在 10 月 23 日,科大讯飞全球 1024 开发者节上,科大讯飞 AI 研究院常务副院长刘聪在「A.I 新技术发布会」演讲环节的一段分享内容。

会上,刘聪也列举了语音识别在直播视频场景下的全场景解析。例如在当前直播短视频内容上,从语音识别的角度来看,这里会有很多复杂的声音。它的背景可能是复杂多样的,可能还有视频声、游戏声或者说音乐声。

此外直播连麦的时候还会经常出现多人混叠的对话,这些声音也会对语音识别带来很大的影响。除此之外,视频当中还会包含有类似笑声、掌声、各种音效的声音。

IMG_2705

而这种场景下,如果要做语音识别,一方面需要降低各种背景的噪声对识别精度的影响,另外还要有针对性的能将感兴趣的声音事件提取出来。

针对这样的新场景,当前的语音识别框架其实已经很难去解决,讯飞也正基于此问题,开发了全场景音频解析的整体方案。

技术原理简单可以理解为:首先通过多分辨率特征提取的声音检测事件的方案,再结合序列训练,对一些相似声音进行精细建模。通过以上操作,即可很大程度实现将笑声、音效等非语音的声音和语音内容分离。

而针对包含语音的有效内容,则使用了基于富信息的语音降噪和分离的方案,综合利用声音、文本、说话、人等信息。以及在有条件的情况之下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模,进而进一步做分离的优化。

编辑:达达 / 深圳湾

>>
Back to top btn