影目科技发布史上最强 AR 眼镜 INMO AIR3:平板、电视、AR 体验一体化革新
百度大脑秀语音新进展:识别率提升 30%、推 3 款模组、多项语音能力全面升级
全栈语音赛道秀肌肉!
11 月 28 日,百度大脑发布了一项新的智能语音交互新技术——基于复数 CNN 网络的语音增强和语音识别一体化端到端建模技术,该方法抛弃了数字信号处理学科和语音识别学科的各种先验假设,消除学科间壁垒,直接端到端进行一体化建模。
目前,该技术已经被集成到百度最新发布的百度鸿鹄芯片中,且相较于传统基于数字信号处理的麦克阵列算法,错误率降低超过 30%。
该模型底部以复数 CNN 为核心,利用复数 CNN 网络挖掘生理信号本质特征的特点,采用复数 CNN, 复数全连接层以及 CNN 等多层网络,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,期间充分挖掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下,同时实现了前端声源定位、波束形成和增强特征提取。该模型底部 CNN 抽象出来的特征,直接送入百度独有的端到端的流式多级的截断注意力模型中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做,完全以识别率提升为目标来做模型参数调优。
针对智能硬件设备,百度大脑还发布了基于百度鸿鹄语音芯片硬件产品:芯片模组 DSP 芯片+Flash、Android 开发板 DSP芯片+ RK3399、RTOS 开发板 DSP芯片+ESP32,预计将在明年初推出。
另外,针对细分场景,还推出了智能家居、智能车载、智能 IoT 设备 3 大端到端软硬一体远场语音交互场景解决方案,具备交互效果优异、软硬一体快速应用、广泛兼容集成门槛低等优点。
同时,在语音识别领域,全面升级短语音识别、实时语音识别能力,发布音频文件转写能力,升级可零代码提升业务术语识别率的语音自训练平台,以及呼叫中心语音解决方案;在语音合成方面,全新发布 6 个在线语音合成精品音库和 5 个离线语音合成精品音库。丰富的语音能力,助力智能硬件、互联网、呼叫中心等领域智能化升级。
目前,百度大脑通过 AI 开放平台已开放 228 项技术能力,接入开发者超过 150万。此次会上,还公布了语音技术日均调用量超 100 亿次数据,国内第一。