圆桌对话:PhysicalAI 距离大规模落地还有多远?
声网姚光华:模型决定聪明的上限,交互节奏决定是不是「活的存在」
模型决定了 AI 聪明的上限,而交互节奏、回声消除与超低延迟这些「工程细节」,才真正决定了它能否成为一个「活的存在」。
当行业普遍聚焦于大模型的「大脑」进化时,声网 AI 产品线负责人姚光华带来了一个关键视角:模型决定了 AI 聪明的上限,而交互节奏、回声消除与超低延迟这些「工程细节」,才真正决定了它能否成为一个「活的存在」。
以下是姚光华在 5 月 16 日的 RTE 机器人论坛上的分享实录精华:
姚光华 声网 AI 产品线负责人
演讲主题:《从玩具到伙伴:消费级机器人的「活人感」交互设计》
姚光华从技术实现与用户体验的「断层」切入,指出了目前 AI 具身智能行业普遍存在的认知误区:行业往往将全部心血倾注在「大模型大脑」的进化上,却忽略了大脑与物理现实世界之间,严重缺乏一层关键的连接。这层连接包含了超低延迟的传输、多模态同步、随时打断的能力、完美的回声消除以及情绪节奏控制。
姚光华指出,单纯的模型聪明并不能带来完美的体验,正是这些容易被归类为「纯工程化」的细节因素,在底层死死卡住了 AI 的体验上限,并共同决定了 AI 到底是一个呆板的对话框,还是一个「像活的存在」的具身伙伴。
基于此,声网正在进行一项重大的角色重塑:将过去十年间服务于「人与人连接」的成熟实时通信(RTC)工程能力,重新定义并全面赋能到 PhysicalAI 时代,转而服务于「AI 与人的连接」。
在消费级机器人从「玩具」向「伙伴」进化的路上,首要门槛就是声学前端的感知精准度。姚光华全面展示了声网针对具身机器人、智能机器狗等不同形态硬件量产的声学前端解决方案。该方案针对非标环形结构或空间极度受限的机器人腔体,定制了低算力、超低延时的双麦/三麦及增强波束降噪算法。它能够有效在居家、商用等嘈杂背景中抑制电磁噪音、舵机噪声与环境干扰,精准保留主说话人的声音,确保第一感知交互的绝对精准,为后续的大模型推理提供高质量、高纯净度的音频源。
「模型决定了 AI 的聪明上限,但实时互动、多模态同步和回声消除,决定了它是不是一个活的存在。」
「机器人的声学前端不是简单的麦克风收音,而是把真实世界的嘈杂物理信号,精准翻译成 AI 脑电波的翻译官。」
深圳湾:今天行业一直在提「活人感」,如果从工程和声学的角度来看,最核心的决定因素到底是什么?
姚光华:是「交互节奏」与「无感打断」。人类说话是有呼吸感和即时反馈的。如果机器人等了 3 秒才回复,或者在主人插话时依然自顾自地往下干瘪地念台词,这种「活人感」就会瞬间崩塌。从声学工程来看,最核心的就是要解决回声消除(AEC)和极致的低延迟。必须在机器人自身喇叭放音的同时,精准过滤掉自己的声音,并在 40 毫秒内捕捉到用户的微弱打断音频。只有把整个传输、感知和执行链路的延迟卷到极致,机器人才能拥有像真人一样「边听边想、随时被打断」的自然节奏。
深圳湾:很多人觉得机器人核心是模型,硬件公司直接联网调用大模型就好了。声网怎么看自己在未来具身智能产业链里的位置?
姚光华:具身智能落地绝非单点技术问题,而是一场极其复杂的系统工程。大模型是很好的大脑,但它无法直接解决端侧的麦克风阵列降噪、硬件回声、网络抖动和音视频多路同步问题。声网给自己的定位非常清晰,我们是 PhysicalAI 时代的「实时互联神经系统」。我们不组装整机,也不做通用大模型,而是通过一整套生产级可用的端云一体实时传输网络和声学算法,把芯片、感知、模型和整机无缝缝合在一起,让伙伴们可以专心去调模型和跑场景。
更多本场活动精华内容,请访问:
- 吉列汽车 杨硕:车里踩过的坑,都是机器人走向现实的指路牌【详情:杨硕篇】
- 赋之科技 李光东:跨越家庭多模态的「体验死亡线」,告别机器人回家「吃灰」【详情:李光东篇】
- 阶跃星辰 赵皓天:物理世界的机器人需要空间智能【详情:赵皓天篇】
- 瑞芯微 王鹏程:敏感数据不出端侧,是 PhysicalAI 建立用户信任的终极底线【详情:王鹏程篇】
- 圆桌对话:PhysicalAI 距离大规模落地还有多远?【详情:圆桌篇】
- 活动万字长文总结【详情:活动回顾全文】
主笔:周森
审校:小炫
编辑:陈述
