声网姚光华：模型决定聪明的上限，交互节奏决定是不是「活的存在」

Uploads%2farticles%2f16847%2fdsc 6761 opq4602402999

活动报道 |

2 小时前

声网姚光华：模型决定聪明的上限，交互节奏决定是不是「活的存在」

模型决定了 AI 聪明的上限，而交互节奏、回声消除与超低延迟这些「工程细节」，才真正决定了它能否成为一个「活的存在」。

周森森

当行业普遍聚焦于大模型的「大脑」进化时，声网 AI 产品线负责人姚光华带来了一个关键视角：模型决定了 AI 聪明的上限，而交互节奏、回声消除与超低延迟这些「工程细节」，才真正决定了它能否成为一个「活的存在」。

以下是姚光华在 5 月 16 日的 RTE 机器人论坛上的分享实录精华：

姚光华 声网 AI 产品线负责人

演讲主题：《从玩具到伙伴：消费级机器人的「活人感」交互设计》

姚光华从技术实现与用户体验的「断层」切入，指出了目前 AI 具身智能行业普遍存在的认知误区：行业往往将全部心血倾注在「大模型大脑」的进化上，却忽略了大脑与物理现实世界之间，严重缺乏一层关键的连接。这层连接包含了超低延迟的传输、多模态同步、随时打断的能力、完美的回声消除以及情绪节奏控制。

姚光华指出，单纯的模型聪明并不能带来完美的体验，正是这些容易被归类为「纯工程化」的细节因素，在底层死死卡住了 AI 的体验上限，并共同决定了 AI 到底是一个呆板的对话框，还是一个「像活的存在」的具身伙伴。

基于此，声网正在进行一项重大的角色重塑：将过去十年间服务于「人与人连接」的成熟实时通信（RTC）工程能力，重新定义并全面赋能到 PhysicalAI 时代，转而服务于「AI 与人的连接」。

在消费级机器人从「玩具」向「伙伴」进化的路上，首要门槛就是声学前端的感知精准度。姚光华全面展示了声网针对具身机器人、智能机器狗等不同形态硬件量产的声学前端解决方案。该方案针对非标环形结构或空间极度受限的机器人腔体，定制了低算力、超低延时的双麦/三麦及增强波束降噪算法。它能够有效在居家、商用等嘈杂背景中抑制电磁噪音、舵机噪声与环境干扰，精准保留主说话人的声音，确保第一感知交互的绝对精准，为后续的大模型推理提供高质量、高纯净度的音频源。

「模型决定了 AI 的聪明上限，但实时互动、多模态同步和回声消除，决定了它是不是一个活的存在。」

「机器人的声学前端不是简单的麦克风收音，而是把真实世界的嘈杂物理信号，精准翻译成 AI 脑电波的翻译官。」

深圳湾：今天行业一直在提「活人感」，如果从工程和声学的角度来看，最核心的决定因素到底是什么？

姚光华：是「交互节奏」与「无感打断」。人类说话是有呼吸感和即时反馈的。如果机器人等了 3 秒才回复，或者在主人插话时依然自顾自地往下干瘪地念台词，这种「活人感」就会瞬间崩塌。从声学工程来看，最核心的就是要解决回声消除（AEC）和极致的低延迟。必须在机器人自身喇叭放音的同时，精准过滤掉自己的声音，并在 40 毫秒内捕捉到用户的微弱打断音频。只有把整个传输、感知和执行链路的延迟卷到极致，机器人才能拥有像真人一样「边听边想、随时被打断」的自然节奏。

深圳湾：很多人觉得机器人核心是模型，硬件公司直接联网调用大模型就好了。声网怎么看自己在未来具身智能产业链里的位置？

姚光华：具身智能落地绝非单点技术问题，而是一场极其复杂的系统工程。大模型是很好的大脑，但它无法直接解决端侧的麦克风阵列降噪、硬件回声、网络抖动和音视频多路同步问题。声网给自己的定位非常清晰，我们是 PhysicalAI 时代的「实时互联神经系统」。我们不组装整机，也不做通用大模型，而是通过一整套生产级可用的端云一体实时传输网络和声学算法，把芯片、感知、模型和整机无缝缝合在一起，让伙伴们可以专心去调模型和跑场景。

更多本场活动精华内容，请访问：