Uploads%2farticles%2f16786%2fimg 0971 %e5%89%af%e6%9c%ac w1920

行业观察 |

2026-03-17

探展&对话声网：对话式 AI 硬件军团背后的军师

从基础语音交互到拟人化情感交互，声网只用了一年。

周森森

随着 AI 大模型和芯片的指数级进化，那些曾经被困在手机 APP 里的核心功能，正被逐一释放到以智能穿戴、桌面机器人、毛绒陪伴玩偶等实体形态，基于人类自然语言交互的对话式 AI 无处不在。

在 AWE 2026 的聚光灯下，声网一系列针对 AI 硬件的开发套件与开源生态亮相，推动 AI 硬件从「开口说话」的基础语音交互，进化到「能看会动」的拟人化情感交互。

产品演进：一年三迭代的路径

声网通过一系列开发套件与开源生态，为下一代 AI 硬件赋能。

① R1（2025 年 3 月推出）：

基于博通集成 BK7258 芯片，专注于解决实时全双工对话、背景降噪和智能打断，让 AI 硬件首次拥有了近乎真人的对话节奏。

客户仅需 30 分钟即可完成 demo 开发，1 天就能完成产品原型制作。目前行业内几乎所有头部 AI 对话品牌均已和声网合作，套件出货量已达百万级。

② R1-4G（2025 年 9 月推出）：

联合紫光展锐、谨讯，通过加入 4G 通信能力，AI 硬件具备了随时随地陪伴的属性，为智能穿戴和车载场景铺平了道路。

③ R2（CES 2026 和 AWE2026 先后亮相）：

R2 在继承全双工语音优势的基础上，新增了本地视觉识别与多自由度运动控制，能「看懂」手势、识别人脸轨迹，做出「转头注视」或「主动打招呼」等具备生命感的本能反应。

%E5%A3%B0%E7%BD%91AI%E5%BC%80%E5%8F%91%E5%A5%97%E4%BB%B6_%E5%89%AF%E6%9C%AC_w1920

对话声网：应用外迁 & AI 硬件的趋势

在与声网相关负责人的交流中，我们进一步拆解了其技术演进背后的逻辑：

深圳湾：R2 有哪些进化？

冯晓东：R2 的核心是强化情感化拟人交互。它并非简单的物体识别，而是能与用户共同感知场景（如形成看日出的共同回忆）、精准理解情绪（如在用户疲惫时主动安慰），甚至具备肢体语言（如吵架后意识到错误时低头致歉）。

深圳湾：产品的多语言能力有哪些提升？

冯晓东：支持 47 种语言，通过调用海外部署的服务器实现低延时响应，实时完成德语介绍法兰克福、法语介绍巴黎等多语言转换与内容输出。目前已与多家同传翻译服务机构展开深度合作。

深圳湾：推出 AOSL 开源项目有何考虑？

冯晓东：由于市场上芯片类型众多，无法逐一开发适配套件，在今年年初，声网宣布了一项具有行业战略意义的举措——将将原本用于内部多芯片适配的 AOSL 项目在 GitHub 全面开源。

AOSL 是在操作系统、芯片与 RTC 传输层之间定义了一套标准接口。目前 AOSL 已完成对乐鑫 ESP32、博通集成 BK7258 等市场主流芯片的适配，并全面支持 RTOS 和 Linux 操作系统。对于芯片厂商而言，接入 AOSL 意味着其硬件从出厂即具备了「声网级」的实时互动能力，成为吸引开发者的加分项。

本次 AWE 上声网首次展现了最新的开源生态。声网邀请芯片原厂、开发者共同参与，以支持更多硬件设备快速具备「能听会说、能看会动」的核心能力，构建开放共享的行业生态，为开发者提供更多成本、功能、技术路径的选择。

深圳湾：声网下一步的产品规划？

冯晓东：R1、R2 及未来的 R3 系列均为场景导向型产品。声网将针对不同细分场景持续优化核心能力。

深圳湾：声网是否会自己推出 AI 硬件？

冯晓东：作为技术驱动型公司，声网专注于打磨核心交互能力，如嘈杂环境下的稳定对话、长距离实时交互等，让客户专注于产品创意与设计，由声网负责实现核心技术能力的落地。

深圳湾：对当前 AI 硬件行业趋势的预测？

冯晓东：今年是 AI 硬件元年，手机 APP 开始从手机向外迁移，手机未来可能仅作为数据中转站，AI 硬件将成为覆盖多场景的交互入口。