Uploads%2farticles%2f14897%2f%e6%80%9d%e5%bf%85%e9%a9%b0dui%e6%a0%87%e6%b3%a8%e8%ae%ad%e7%bb%83%e4%b8%80%e4%bd%93%e5%8c%96%e5%b9%b3%e5%8f%b01

语音识别的「三大考验」

噪声环境。目前对语音识别效果影响最大的就是环境杂音或噪音，在公共场所中，来自四面八方的声音会让识别系统不知所措，实验室环境下的优异表现可能在实际应用场景中被「吊打」。例如在高铁、地铁、公交等交通场景下，多种混合噪声降低了识别效果，进而影响用户在询路、购票、换乘过程中的交互体验。

专业术语。大多数垂直应用场景都有自身的专业术语和指代用词，例如医疗场景中病症、医药名，门店销售场景中的奢侈品牌名称、型号，公安审讯场景中的敏感词汇，会议场景中的人名、地名等等，要求语音系统适应各种领域，还能准确识别特殊用词不是件容易事。

多语言混合识别。「你好小驰，hu （福）建今天天气怎么样？那fu（湖）南呢？」识别方言口音在生活中随处可见，伴随着 AI 技术拓展到了三、四线城市，智慧门店、地产售楼、汽车 4S 店等场景的应用都重在「入乡随俗」。此外，中英混杂、多语种等语言习惯也影响着识别效果。

场景驱动，定制模型提升识别率

思必驰推出 DUI 标注训练一体化平台是集成语音标注、模型自训练、识别测试、服务部署和团队管理于一体的一站式产品，提供数据标注-模型优化-测试评估-服务部署完整链路语音识别自主优化能力，支持私有化部署，协助企业在短期内实现识别效果“不可用->可用”的提升，实现快速更新响应，持续提升场景识别效果。

目前，思必驰 DUI 标注训练一体化平台，已在医疗、政务、航空等多个行业领域得到应用。平台支持私有云一键化部署，未来也将以公有云的形式对外开放，用于语音识别优化。注册用户可全流程自主掌握，后续规模化的拓展也将触类旁通。

%E6%80%9D%E5%BF%85%E9%A9%B0DUI%E6%A0%87%E6%B3%A8%E8%AE%AD%E7%BB%83%E4%B8%80%E4%BD%93%E5%8C%96%E5%B9%B3%E5%8F%B0

会议场景：会议记录更细致

会议发言的实时转写、纠错与记录是现代办公的强需求。会议场景下的需求可以归纳为两方面：

1. 准确度高，即识别结果要准。行业领域常用语、专有名词、中英文混杂、人名职位等各种词汇篇章表述需要尽可能准确。借助平台进行语言和热词模型的训练，训练后的模型在会议真实场景下的识别率提升至 95% 以上。另外，使用语言模型增量训练模式，通过反复迭代，可以增强在某一个细分场景或领域下的识别效果。除此以外，大会场景下，可以针对领导发言人的用语习惯进行声学定制，系统持续自我「进化」，模型将越用越智能。

2. 阅读性强，即识别出的文本易于阅读，可懂度高。会议转写结果通常会是篇章段落，且多含有口语化表达，因此识别结果要通俗易懂，尤其在标点断句上要「通人性」。通过平台的标点、顺滑、断句模型训练可以输出符合众人阅读习惯的文本。

航空通讯场景：语音质检更安全

航空通讯比通用场景复杂，除存在诸多 QNH（海平面气压）类似的缩写词汇、专业术语外，断句、发音方式 1 (幺)、2 (两)、7 (拐)、0 (洞)等，也比较特殊。只有精准识别座舱内飞行员之间、或与地面塔台间的沟通话术，才可有效确保飞行安全。用户通过 DUI 标注训练一体化平台可进行「语言 + 声学 + 标点」的自训练，实现标点断句自动化全量质检，降低了人工成本，提升沟通效率，保障飞行安全。在已有落地案例中，实现了识别准确率相对提升 40%。

医疗场景：专业术语更精准

医疗场景的应用不仅面临器械噪声、候诊人群说话声等背景噪声，还面临着专业科室、专家名、病症等专业术语，例如，「血压 150 毫米汞柱」、「推 XX Mg 液体」。语音识别的准确性关乎诊断结果的正确输出。DUI 标注训练一体化平台模型在对词汇、语句、发音优化后，实现识别准确率相对提升 40%，在医疗垂直领域下的效果更佳。平台的私有化部署，可将患者隐私存储在医院自建机房中，确保数据安全。

城市交通：风暴降噪更清晰

风噪、路噪、发动机噪声等多重环境噪音是城市交通场景应用的一大难题。DUI 标注训练一体化平台通过思必驰 VDCNN 自研算法降噪，针对交通场景深度学习，在嘈杂环境下也能耳听八方。同时，支持普通话/中英混合/英语/粤川沪等多语种及方言的识别，「入乡随俗」准确识别「𧒽(lei)岗站」、「东涌(chong)站」等冷门、多音字的站名，让乘客通过咨询机进行语音问询、购票更自由。

数字化门店：消费者服务更个性

在各类门店中，服务人员可佩戴着蓝牙耳麦、智能录音工牌与客户交谈，AI辅助服务行业数字化转型。

例如在地产售楼场景中，精细化语音识别效果，强化对方言口音、「预算」、「产权」等行业关键词的识别。餐饮店内，记录下最受欢迎的「菜品名」。汽车 4S 店中，通过对「排放量」、「品牌名」等高频词汇识别，进行用户画像分析。不仅可以规范员工的服务话术，更能基于大数据洞察用户需求，给出针对性方案提升签单转化率。

语音识别优化是一个漫长的过程，伴随海量数据不断更新，语音识别准确率将持续提升。

智能经济形态下，以 AI 为技术手段，赋能产业形态转型升级是思必驰所愿。将自主定制的主动权交给用户，让智能语音交互技术持续下沉，赋予各行业投入智能化浪潮的自由权利，或许智能化故事才刚刚开始。

资讯来源：思必驰

思必驰