Uploads%2farticles%2f13853%2fshenzhenware report image 5x4.007
|
2020-03-03

搜狗推出 8 麦阵列的 AI 录音笔,拾音和转写能力大幅提升

录音、转写、翻译,不错的生产力工具!

其实早在上世纪 90 年代,小型迷你录音笔就被发明出来了。在之后的 20 年里,录音笔的产品形态和基本功能基本上没有变化。虽然存储空间越来越大,录音的音质越来越好,但并没有本质的帮用户解决问题。

那么录音笔从本质上应该为用户解决哪些问题?作为一家 AI 公司,搜狗在一年前推出第一款录音笔 C1 的时候,就曾经思考过,如何用「以语言为核心的 AI 能力」去驱动录音笔,让它能够为用户提供更好的使用体验。

这其中的思考方向有三:

  1. 更好的拾音能力,用人工智能的能力增强人声,这样听起来讲话的声音更清晰;

  2. 更准确的转写能力,能够把录下来的声音准确地转成文字,兼顾准确率和转写速度;

  3. 更高效的整理和使用这些录音和转写文字。

△ 搜狗 2019 年发布的录音笔 C1 Pro

在录音笔这个不算很大的垂直细分领域,不难看到一些被吐槽「录音效果甚至不如手机」的渣渣产品,不外乎几个原因:硬件配置不够,录音和转写能力不够,整体使用体验不佳。

在经历了这些年在消费电子市场的摸索、以及在软硬件产品能力的积累和沉淀后,搜狗在 2020 年 2 月 26 日,通过线上发布会的方式,重磅推出了 S1、E1 两款旗舰级的 AI 录音笔新品,在去年发布的 C1 的基础上,进一步实现了产品功能的全面突破与升级。

△ 搜狗杨洪涛发布 S1、E1 两款 AI 录音笔

这两款产品是如何做到「更好地拾音、更准确地转写、更高效地整理」呢?我们从整个录音到整理的过程来看,搜狗是如何在这两款产品上「下血本」的。

8 麦克风阵列 + AI 降噪,大幅提升拾音能力

在录音的过程中,不管是使用录音笔、还是手机的录音软件,经常会遇到各种噪音干扰的情况,比如会场里窃窃私语的声音,比如会议室的空调声、敲键盘声、翻阅材料的声音,比如咖啡馆里的背景音乐、电话铃声和各种人来人往的杂音......如果录音的时候不加处理,就会导致录音者的人声不清晰,甚至被噪音覆盖掉。

搜狗 AI 录音笔首先从硬件的层面解决噪音的问题。S1 配备了 2 颗哈曼 10mm 指向性麦克风 + 6 颗全向麦克风。通常智能手机只有最多 2 个麦克风,而智能音箱也不过 4 个麦克风。

在会议和采访模式下,将录音笔平放的时候,可以实现 360° 方向的声音收录,并对各个方向的声音进行平衡;而在听课模式下,麦克风则指向正前方,通过波束采集较远处主讲人的声音。

在实现全向录音后,搜狗还利用了 AI 降噪技术,对麦克风的拾音信号进行三个层面的优化处理。基于麦克风阵列算法,首先在空间层面,通过增强人声、去除背景音,优化 8 个麦克风的全向信噪比。

△ 现场演示 AI 降噪功能

而针对与人声同时被录入进来的极端噪声,则通过判断时域、频率的特征,进行去除。此外,当遇到一些无法判断特征的不确定的噪音时,搜狗还能利用神经元和 AI 学习的方法,对噪声进行判断和区分。

据搜狗介绍,在 S1 上采用的这个 PureVoice AI 深度降噪算法,能够过滤 4 万余种真实噪音。

合并输入法词汇,支持多语言和方言,全面提升转写准确率

现如今,无论是媒体从业人员,还是各行各业常常开会和听讲的人,对于录音笔的需求已经不局限于录音这一个功能上,录音后的文字转写功能,已经成为这些人的「刚需」。

搜狗 S1 在录音的同时,还可以实时转写文字,并同时显示在屏幕下方。而在录音完成后,将文件上传云端,还能完成通篇的转写。理论上,1 小时的录音生成稿件可以在 5 分钟内完成转写,识别率达到 98%。

如何通过技术手段来确保这一过程的高效呢?在远场语音识别技术之上,S1 还利用了搜狗输入法背后的语音技术,当用户在录音笔上登录搜狗账号,就可以在服务器上合并个人的语汇,从而获得更符合个人需求和准确率更高的语音识别。

△ 现场演示上课场景的定向拾音 + 实时转写

搜狗输入法每天有接近 6 亿次的活跃用户,每天会产生 10 亿次的语音请求,这些数据可以对语音识别和转写进行支持,从而可以准确识别一些通常很生僻但已经在用户数据库里的词汇,比如通讯录里的人名,或者用户经常输入的专业词汇。

搜狗的 AI 录音笔还支持中英日韩德等 10 种语言、以及川粤津陕贵等 10 种方言的录音和转写。除此之外,搜狗语音团队经过长时间训练创建的财经贸易、医疗卫生、IT 科技、政法、文化体育 5 个专业领域的语言模型,也应用到了此次的新品,从而提升了行业特有词汇的识别准确率。

△ 搜狗 AI 录音笔背后的技术

智能标注、智能摘要、语音查找,高效的文稿整理功能,外加同声传译

在实际的工作中,我们总能遇到录音时间过长、转写之后文字篇幅很大、录音文件较多的时候,查找起来费时费力。

△ 对转写的文稿进行智能标注

搜狗录音笔具备智能标注的能力。当有多个人讲话的时候,录音笔可以辨别不同的讲话人,并进行标识;甚至还能在有掌声、笑声的部分进行情绪标注;并自动去除一些口头语、重复的词汇。按下 M 键,即可在转写生成的文稿里查看这些标注,一目了然。

△ 现场演示:多人会议场景时的实时转写+智能标注

基于 NLP 技术和关键词搜索技术,搜狗还推出了业内首创的智能摘要功能,可以自动提炼录音文稿的主题和关键语句,方便用户对转写内容进行整理。

此外,搜狗 AI 录音笔还支持用语音一句话查找录音内容。

△ 长按 M 键唤醒语音助手,可启用语音搜索

在云端存储技术的加持下,用户还能在录音笔、手机 App、网页、PC 客户端等多端自动同步和管理录音数据,并实现一键导出、扫码分享等便捷操作。

而在中英文的转写方面,搜狗 AI 录音笔还能实现个人同传功能,听英文报告的时候可以实时进行翻译。

△ 实时中英互译,转写结果可以实时共享给其他人

S1 还支持全球 63 种语言的在线翻译,以及中、英、日、韩、法、俄等 9 种常用语言的离线翻译,同时还能实现自由对话翻译功能。

价格和其他

续航方面,产品可满足待机 20 天、满电续航 10 小时。而 S1 还配备了内置的存储卡和 4G 卡槽,定价 2698 元。

同时发布的 E1 是 S1 的亲民版,定价 1298 元。E1 具备与 S1 相当的 AI 能力,只是屏幕要小一些,只支持 Wi-Fi 联网。

自去年搜狗发布 C1 之后,搜狗就将其 AI 服务向录音笔行业的合作伙伴开放,包括语音识别技术、搜狗输入法账号服务体系、个性化语言识别、多端同步的云端编辑能力、云存储服务能力等,并与索尼、万城集团、爱国者、纽曼等硬件设备制造商展开合作。

在主流电商平台上,自 2019 年 3 月搜狗产品发布以后,AI 录音笔的销量快速增长。在今年一季度的录音笔市场,AI 录音笔已经占据了 1/3 左右的市场份额。

总的来说,S1 和 E1 无论是硬件配置还是 AI 技术的加持,都是一款「上得了厅堂、下得了厨房」的好「伴侣」,可以极大的提升工作效率。而具体的录音和转写的一些细节体验方面,还真需要领回家慢慢感觉才好做判断。

微信号:shenzhenware

主笔、编辑:大零 / 深圳湾

>>
Back to top btn