新场景下的语音识别，下一步发展方向是什么？| 科大讯飞 1024 开发者节

2020-10-23

对语音识别技术的要求将会更高

语音识别应该要持续的去挑战更加复杂的场景，去实现从语音到声音，从单纯的文字内容的识别，到音频的全场景解析。

在 10 月 23 日，科大讯飞全球 1024 开发者节上，科大讯飞 AI 研究院常务副院长刘聪在「A.I 新技术发布会」演讲环节的一段分享内容。

会上，刘聪也列举了语音识别在直播视频场景下的全场景解析。例如在当前直播短视频内容上，从语音识别的角度来看，这里会有很多复杂的声音。它的背景可能是复杂多样的，可能还有视频声、游戏声或者说音乐声。

此外直播连麦的时候还会经常出现多人混叠的对话，这些声音也会对语音识别带来很大的影响。除此之外，视频当中还会包含有类似笑声、掌声、各种音效的声音。

而这种场景下，如果要做语音识别，一方面需要降低各种背景的噪声对识别精度的影响，另外还要有针对性的能将感兴趣的声音事件提取出来。

针对这样的新场景，当前的语音识别框架其实已经很难去解决，讯飞也正基于此问题，开发了全场景音频解析的整体方案。

技术原理简单可以理解为：首先通过多分辨率特征提取的声音检测事件的方案，再结合序列训练，对一些相似声音进行精细建模。通过以上操作，即可很大程度实现将笑声、音效等非语音的声音和语音内容分离。

而针对包含语音的有效内容，则使用了基于富信息的语音降噪和分离的方案，综合利用声音、文本、说话、人等信息。以及在有条件的情况之下，还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模，进而进一步做分离的优化。

编辑：达达 / 深圳湾

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

上一篇：科大讯飞 1024 计划 4.0 发布：先导计划、城市计划、公益计划全新亮相，平台服务将更加定制化和下沉