Uploads%2farticles%2f16843%2fdsc 6715 opq4602385262

2026-05-25

【备份】一文回顾声网 RTE 机器人论坛，拆解 PhysicalAI 走向现实的全链路图谱

如何给冷冰冰的模型穿上「活人感」的外衣，从芯片、声学、大模型到整机和生态，全链路实时交互，聆听吉利汽车、赋之科技、声网、阶跃星辰、瑞芯微的专家解读

过去两年，全行业都在为大模型在聊天框里展现出的惊人逻辑而兴奋；而伴随着 AI 从屏幕走向物理世界（PhysicalAI），去推开一扇车门、去抚摸客厅里的宠物、或者去接住一句日常闲聊时，现实的惨状却是：真实的场景从不按提示词运行，真实的物理世界毫无章法且充满噪音，「慢」和「卡顿」会被用户直接翻译成「笨」与「不可用」。

在上周六举办的声网 RTE2026 深圳站活动上，我们将关于消费级机器人的讨论重心，放在了「PhysicalAI 与机器人实时交互」上。我们与来自吉利汽车研究院、赋之科技、声网、阶跃星辰、瑞芯微的技术与产品专家一起，首次完整地将芯片算力、声学前端、实时通信（RTC）、多模态模型以及整机厂放在了同一个闭环里讨论。

我们不仅要谈「技术能不能实现」，更要探讨如何攻克那些隐匿在底层、却死死卡住具身智能上限的工程细节，让机器人从「会说话的机器」，进化出像真人一样的「活人感」。

△ 上：科技产品顾问黄铭杰代表深圳湾主持了本场活动，中、下：活动现场

吉利杨硕：车里踩过的坑，都是机器人走向现实的指路牌

杨硕 吉利汽车研究院人工智能中心全域 AI 业务负责人

演讲主题：《人-车-家全场景智能化构建：当超级 Eva 遇见贾维斯》

作为本次论坛最先跨入 PhysicalAI 规模化落地的先行者，杨硕从一个超越传统汽车行业的视角切入，指出汽车并不单纯是一个出行工具，其本身就是一个移动的、具备极高复杂度的大型智能机器人。在吉利全域 AI2.0 的战略布局中，汽车已被重新定义为数据中枢、算力中心与交互枢纽的三位一体。

但杨硕敏锐地观察到，当前的行业痛点在于智能家居、车载系统和智能穿戴依旧各自为战，导致用户意图在设备切换时发生严重断裂，体验极度碎片化。为此，吉利正在做的事情是打破设备之间的物理边界，构建一个由「人、车、家、眼镜、机器人」共同组成的泛在 AI 空间网络。

他强调，未来的核心演进趋势必然是从「单设备助手」升级为「跨设备智能体」。作为物理世界中最早期、规模最大且电力与算力储备最充沛的 AI 落地场景，智能座舱（如吉利量产的超级 Eva）已经提前在强噪声、弱网环境、多人同时交互等技术泥潭里「踩过了很多的坑」。

在具体的攻坚过程中，车企已提前攻克了诸如 120 码高速行驶等极端强噪声环境下的近场与远场语音识别、多人同时在场交互的干扰、主副驾音区隔离、弱网乃至无网环境下的端侧保障等核心痛点。这些在极端出行场景下提炼出的底层工程能力、场景闭环逻辑以及数据飞轮机制，不仅能让汽车成为人-车-家的交互中枢，更应当作为一种「老大哥」的经验，全面向居家机器人、AI 眼镜等 PhysicalAI 硬件迁移，从而完成「感知-决策-执行」的完整生态闭环。

「未来的 AIAgent 绝不是单设备助理，而是跨设备的智能体。」

「汽车是 AI 最早进入 PhysicalAI 的演练场，我们在座舱强噪声和弱网里踩过的坑，就是机器人走向家庭的指路牌。」

深圳湾：车载语音交互踩过的最深的坑是什么？对今天的家庭机器人有什么可以规避的启示？

杨硕：车载语音早期最痛苦的是「误唤醒」和「伪智能」，过分追求了「功能堆砌」和「听懂指令」。一来，在高速行驶或车内多人聊天时，系统频繁被噪音错误激活；二来，交互冷冰冰，系统只能机械地执行命令而无法理解人类的真实意图。对家庭机器人的启示在于，不能只做「听话」的机器，必须建立极强的空间感知和场景上下文理解能力，优先解决在复杂物理环境下的「抗干扰能力」和「打断机制」，知道什么时候该闭嘴，什么时候该主动提供帮助，让交互更自然。

深圳湾：汽车是算力与电力大户，但对于体积和资源远不及汽车的移动机器人硬件，车企沉淀的工程经验该如何低成本地落地和复用？

杨硕：车能承担超级接口的意图层决策，而机器人的定位应当是物理代理（PhysicalAgent）。虽然机器人硬件体积受限，但通过声网等 RTC 技术的融合打通，它可以共享车载智能座舱或云端大模型（端云协同）的复杂决策结果。整机厂需要做的是将车端的多模态交互矩阵进行轻量化剪裁，优先保障最基础的交互连续性。

赋之李光东：跨越家庭多模态的「体验死亡线」，告别机器人回家「吃灰」

李光东 赋之科技 Enabot 产品负责人

演讲主题：《Enabot 家庭机器人：让多模态走进家庭》

李光东将焦点拉回到了温馨但对交互而言极其复杂的家庭场景，开门见山地指出了理想与现实的残酷鸿沟：实验室或大模型提示词（Prompt）里运转完美的机器人，一旦进入真实的家庭场景就会瞬间「现出原形」。

真实的家庭环境是毫无章法且充满噪音的——宠物的突发叫声、电视背景音、小孩的无序插话以及死角的弱网。在这样的复杂物理世界中，用户根本不关心厂商堆叠了多少模型参数，他们有一套最直白的算账方式：「你这响应还不如我两百块的智能音箱快」。

为了跨越这条家庭机器人的「体验死亡线」，李光东提出了赋之科技的三大探索方向：首先，基础交互体验必须过线，奉行「先让用户说得出口、等得起，再谈复杂智能」的原则，联手声网 RTC 从 Agent 框架、模型训练到交互节奏进行全链路毫秒级提速。其次，用户使用高频和核心功能要靠谱，意图的理解和任务执行要稳定，用户的模糊口语指令（如「提醒奶奶去取快递」），机器人的要能理解，能拆解，能根据过程状态自己动态决策。机器人必须能够深刻理解物理世界，将用户模糊的口语指令（如「给我拍张全身照」）通过产品侧的「引导式交互」，转化为包含构图、距离、角度在内的具体可执行动作，而非干瘪地回答一句「我明白了」。最后，要通过工程化手段融合弱人脸、空间感知和长期记忆，让机器人具备连续性和趣味性。

产品经理和研发团队必须跨越单纯的「技术实现」目标，去攻克高频、长期的交互瓶颈，将冷冰冰的硬件打包成一个有温度的家庭成员，真正像一个「活的人类伙伴」一样存在，用户才愿意为其提供长期付费的粘性价值。

「家庭场景从不按提示词运行。在家里，慢会被无限放大成笨与不可用。」

「先让用户‘说得出口、等得起’，再谈更复杂的智能。」

深圳湾：当家庭机器人面对高频的用户打断或者极其碎片化的连续对话时，系统该如何避免大模型由于上下文拉长而导致的「胡言乱语」或「响应断崖式变慢」？

李光东：这也是家庭交互中最折磨产品经理的场景。我们目前的核心技术探索是把「空间—身份—记忆」当作一项长期的工程化系统能力，而不是单次对话的技巧。通过在端侧感知层进行身份线索融合，结合云端轻量化的上下文裁剪算法，配合传输链路上对交互节奏的动态调配，从而在根源上确保机器人能记住「之前聊过什么」，同时维持极高的响应敏捷度。

深圳湾：让家庭机器人不变成「吃灰」的玩具的关键在于什么？

李光东：关键在于找到高频/核心的使用场景，并让用户能真正用起来。机器人如果每天都在重复昨天的机械对话，必然会被淘汰。针对不同的人群，比如，老人需要的是简单可靠的安全看护、无感的被动关怀，而小孩则需要无门槛、强反馈的互动。我们通过端侧检测算法和远端大脑的结合，让机器人能自动识别当前交互对象的身份，可以根据视觉和声音的多模态信息和记忆做出不同反馈和互动，遇到危险也可以及时通知，在高频和核心功能场景让用户用起来，愿意持续使用。

声网姚光华：模型决定聪明的上限，交互节奏决定是不是「活的存在」

姚光华 声网 AI 产品线负责人

演讲主题：《从玩具到伙伴：消费级机器人的「活人感」交互设计》

姚光华从技术实现与用户体验的「断层」切入，指出了目前 AI 具身智能行业普遍存在的认知误区：行业往往将全部心血倾注在「大模型大脑」的进化上，却忽略了大脑与物理现实世界之间，严重缺乏一层关键的连接。这层连接包含了超低延迟的传输、多模态同步、随时打断的能力、完美的回声消除以及情绪节奏控制。

姚光华指出，单纯的模型聪明并不能带来完美的体验，正是这些容易被归类为「纯工程化」的细节因素，在底层死死卡住了 AI 的体验上限，并共同决定了 AI 到底是一个呆板的对话框，还是一个「像活的存在」的具身伙伴。

基于此，声网正在进行一项重大的角色重塑：将过去十年间服务于「人与人连接」的成熟实时通信（RTC）工程能力，重新定义并全面赋能到 PhysicalAI 时代，转而服务于「AI 与人的连接」。

在消费级机器人从「玩具」向「伙伴」进化的路上，首要门槛就是声学前端的感知精准度。姚光华全面展示了声网针对具身机器人、智能机器狗等不同形态硬件量产的声学前端解决方案。该方案针对非标环形结构或空间极度受限的机器人腔体，定制了低算力、超低延时的双麦/三麦及增强波束降噪算法。它能够有效在居家、商用等嘈杂背景中抑制电磁噪音、舵机噪声与环境干扰，精准保留主说话人的声音，确保第一感知交互的绝对精准，为后续的大模型推理提供高质量、高纯净度的音频源。

「模型决定了 AI 的聪明上限，但实时互动、多模态同步和回声消除，决定了它是不是一个活的存在。」

「机器人的声学前端不是简单的麦克风收音，而是把真实世界的嘈杂物理信号，精准翻译成 AI 脑电波的翻译官。」

深圳湾：今天行业一直在提「活人感」，如果从工程和声学的角度来看，最核心的决定因素到底是什么？

姚光华：是「交互节奏」与「无感打断」。人类说话是有呼吸感和即时反馈的。如果机器人等了 3 秒才回复，或者在主人插话时依然自顾自地往下干瘪地念台词，这种「活人感」就会瞬间崩塌。从声学工程来看，最核心的就是要解决回声消除（AEC）和极致的低延迟。必须在机器人自身喇叭放音的同时，精准过滤掉自己的声音，并在 40 毫秒内捕捉到用户的微弱打断音频。只有把整个传输、感知和执行链路的延迟卷到极致，机器人才能拥有像真人一样「边听边想、随时被打断」的自然节奏。

深圳湾：很多人觉得机器人核心是模型，硬件公司直接联网调用大模型就好了。声网怎么看自己在未来具身智能产业链里的位置？

姚光华：具身智能落地绝非单点技术问题，而是一场极其复杂的系统工程。大模型是很好的大脑，但它无法直接解决端侧的麦克风阵列降噪、硬件回声、网络抖动和音视频多路同步问题。声网给自己的定位非常清晰，我们是 PhysicalAI 时代的「实时互联神经系统」。我们不组装整机，也不做通用大模型，而是通过一整套生产级可用的端云一体实时传输网络和声学算法，把芯片、感知、模型和整机无缝缝合在一起，让伙伴们可以专心去调模型和跑场景。

阶跃赵皓天：物理世界的机器人需要空间智能

赵皓天 阶跃星辰 IoT 负责人

演讲主题：《多模态大模型在机器人领域的应用与 AI 智脑方案》

作为前沿大模型领域的代表，赵皓天明确提出，今天物理世界机器人真正需要的，早已不再是传统大模型那种坐在办公室里的「文字聊天」能力。具身智能时代呼唤的是「空间智能」（SpatialIntelligence）。这意味着机器人必须对真实物理空间具备深度理解、对复杂动态环境有敏锐感知、拥有全天候的连续视觉与语音推理能力，并能自主进行长期记忆的沉淀。

赵皓天认为，如果大模型无法感知物理实体的存在，无法理解物体之间的三维空间关系，它就永远无法在物理世界中做出正确的决策与合理的动作。

阶跃星辰端云结合的 AI 智脑方案，采取本地端侧轻量化模型与云端大模型协同的路线。该方案在确保本地隐私与毫秒级高频响应的同时，提供云端无限量的深度思考调用，真正让机器人不仅能「听懂」人类的指令，更能去「理解现场、使用工具并完成真实的物理任务」，完成从虚拟世界向物理现实的硬核一跨。

物理世界的机器人需要的是空间智能（Spatial Intelligence）。」

「未来的机器人大脑不应该只活在云端，端云协同是兼顾隐私安全与无限算力的唯一解。」

深圳湾：通用大模型直接落地到垂直行业机器人时，经常会遇到「幻觉」问题。在聊天框里开个玩笑没关系，但如果巡检或服务机器人在物理世界中执行了「幻觉指令」，可能会导致严重的实体安全事故。阶跃是如何解决这个卡点的？

赵皓天：这确实是具身大模型最严苛的考核指标。我们的解法是放弃让通用大模型包揽一切，而是通过「端云协同 + ReAct（推理-行动）多智能体协作框架」来做确定性治理。高频、需要绝对安全反馈的本地感知数据，由本地经过确定性校准的模型即时处理。同时，我们将机器人的自主决策限制在标准的协议与可控的工具接口（如 MCP 协议）之内。大模型负责拆解意图，而动作的执行则由本地 RAG（检索增强生成）知识库和传统控制算法进行交叉验证，确保机器人的每一个物理动作都技术可信、边界明确，将幻觉限制在软件层面。

深圳湾：机器人要具备您所说的「空间智能」，需要实时处理视觉、听觉等多路多模态数据，这会让上下文（ContextWindow）迅速拉长。面对长序列带来的算力饥饿和成本激增，大模型厂该如何帮硬件厂商算账？

赵皓天：如果把每一秒的音视频都一股脑塞进大模型，任何硬件都无法承受。阶跃在算法侧的核心攻坚之一，就是「多模态的深层融合与长记忆裁剪机制」。机器人不需要记住每一帧画面，而是需要记住场景中的「实体变化」和「身份线索」。我们通过在感知层进行结构化特征提取，配合端侧轻量化的上下文动态淘汰算法，只保留对当前任务有价值的核心上下文。通过这种工程化裁剪，我们成功把 Token 的消耗和成本压到了生产级可用的区间，让长记忆不再成为硬件的成本包袱。

瑞芯微王鹏程：敏感数据不出端侧，是 PhysicalAI 建立用户信任的终极底线

王鹏程 瑞芯微高级市场经理

演讲主题：《RK 芯片赋能端侧 AI 产品与具身发展挑战》

作为产业最底层的硬件基石提供商，王鹏程在演讲中指出，AI 大模型正在经历一场轰轰烈烈的「从云端向端侧回归」的逆向运动。

由于多模态机器人涉及大量的视频、音频以及家庭或工业现场的极端敏感数据，隐私安全（Privacy）已经构成了端侧部署的第一原动力，必须做到敏感数据「不出端侧」。同时，工业控制和自然交互所要求的毫秒级响应实时性、无网弱网环境下的高可靠性，以及不可忽视的云端持续 Token 带宽成本，共同倒逼着大模型必须在终端落地。

王鹏程强调，多模态大模型（包含 ASR、TTS、视觉编码、多模态融合、3D 深度估计等）的爆发，对边缘端侧的算力、功耗和综合成本控制提出了几近极致的挑战。瑞芯微的应对战略是推动芯片原厂从传统的通用 AIoTSoC，全面向端侧 AI 推理平台演进。

目前，机器人硬件终端正在快速复制 AIPC 的演进路径，形成由「主控 + 协处理器（如 RK3588/RK3576 系列大算力 NPU 平台）」构成的异构算力系统架构。通过这种底层软硬协同优化，并全面支持标准 MCP 协议与轻量级 Agent 框架，彻底降低多模态大模型在终端产品的部署门槛，以极高的性价比让高阶智能走向现实。

「敏感数据不出端侧，是 PhysicalAI 建立用户信任的终极底线。」

「AI 大模型正在从云端流向边端，未来的机器人终端竞争，本质上是算力、功耗与 Token 成本的软硬一体平衡战。」

「芯片原厂不能只卖硬件，我们要做的是高泛化的端侧推理底座，用确定性的算力架构去承载不确定性的算法迭代。」

深圳湾：芯片的硬件开发周期通常长达一到两年，但大模型算法几乎是「按周迭代」的速度。瑞芯微作为芯片原厂，如何确保当前设计的异构芯片架构不会在一年后由于新模型的出现而成为过时算力？

王鹏程：这是所有芯片厂商面临的最大挑战。我们的解法是放弃追求针对单一特定算法的「硬核固化」，转而全力打造高泛化能力的端侧 AI 推理底座。通过设计具备极高弹性、支持多小参数模型广泛并行的 NPU 架构，配合标准的异构协作框架，让芯片成为一个可自由调度 Tools、本地知识库（RAG）和多模态编码的软硬件通用推理平台。算法在变，但端侧对算力调度、数据剪裁和异构协同的底层底座需求是不变的。

深圳湾：对于机器人整机厂来说，端侧芯片的算力往往和成本、功耗直接挂钩。在有限的硬件成本和电池续航限制下，瑞芯微如何帮整机厂做算力与成本的平衡？

王鹏程：天下没有免费的午餐，算力越高往往意味着功耗和成本越大。瑞芯微的思路是「把钢用在刀刃上」，不一味追求大参数，而是主张端云协同和软硬协同。在端侧，我们通过工具链把模型量化剪裁（如 INT4/INT8 量化），让中低算力的芯片也能跑起高表现力的轻量模型；同时，芯片设计上采用多核异构，不交互时大算力 NPU 彻底休眠，只留低功耗内核做常驻唤醒监听。通过这种精细化的「算力算账」，帮整机商跨过量产的成本门槛。

圆桌对话：PhysicalAI 距离大规模落地还有多远？

在随后的圆桌论坛环节，来自声网的圆桌主持人左冬冬（声网 IoT 行业负责人）与五位来自产业链上下游的嘉宾展开了深度对谈。

圆桌主持：左冬冬（声网 IoT 行业负责人）[左一]
对话嘉宾：[从左向右]
杨硕（吉利汽车研究院人工智能中心全域 AI 业务负责人）
李光东（赋之科技 Enabot 产品负责人）
赵皓天（阶跃星辰 IoT 负责人）
王鹏程（瑞芯微高级市场经理）
谭树豪（上海互问信息科技有限公司市场总监）

以下为圆桌对话的精彩实录提炼：

话题一：全链路的卡点与技术诉求

声网左冬冬：当前 AI + 多模态机器人从实验室走向规模化落地，并非单点技术问题，而是一整套协同工程。大家观察到目前全链路最大的卡点是什么？是算力、模型适配、传输稳定性，还是场景适配或成本问题？

吉利杨硕：从构建全场景的策略来看，最大的卡点在于跨场景的连续性。当前智能家居、车机与穿戴设备各自独立，用户意图在设备切换时会发生断裂，导致体验极度碎片化。

赋之李光东：整机厂在集成芯片、感知、模型和传输时，最棘手的是供应链的兼容性、联调与稳定性。面对目前碎片化和定制化的上下游，如何实现一套可规模复制的软硬件架构是核心痛点。

上海互问谭树豪：最大卡点在于前端感知层。声源定位、降噪等前端基础如果不够精准，大模型的语音识别与语义理解就会交互崩溃。因此，行业首要解决的是前端的感知误判。

阶跃星辰赵皓天：主要卡在大模型在物理世界中的「空间智能」和动作确定性上。机器人需要的大模型能力不是简单的文字聊天，而是对环境的感知、长期记忆以及多模态推理能力。

瑞芯微王鹏程：核心在于多模态并发带来的端侧算力、功耗与成本控制。大模型落地需要更自然、聪明的交互，但如何在终端产品受限的功耗下算好成本账，是规模化量产的卡点。

话题二：端侧感知层与大模型的深度联动

声网左冬冬：机器人实际服务中常处于各种嘈杂环境。作为第一信息感知层，麦克风阵列与大模型的语音识别、语义理解如何深度联动？机器人企业如何解决「感知不准，造成模型误判」的链路问题？

上海互问谭树豪：这主要取决于具体的对话模式与高噪声场景。机器人的应用场景非常广泛，既有高噪声的现场场景，也有复杂的家庭场景。例如在家庭场景中，用户经常会开着电视，此时如果要与机器人聊天，电视声音就会造成严重干扰。如果系统具备波束成形（Beamforming）能力，将波束精准锁定在主说话人的方位，电视背景音就会被有效抑制，从而消除环境干扰。未来当端侧芯片、算法与麦克风阵列的性价比控制在生产级可用区间时，消费级市场的出货量将会放得最大。

赋之李光东：解决感知误判不能只看孤立的硬件降噪指标。我们主张通过视觉和声音的多模态组合，在感知识别链路进行工程化创新（例如融合弱人脸条件下的身份线索）。把「空间 — 身份 — 记忆」当作一项长期的系统能力输入给模型，让机器人能够自主识别当前交互对象的身份，从而动态切换其陪伴的人设与话术节奏。

话题三：端云结合的价值

声网左冬冬：多模态大模型场景中，端侧感知数据「精准」收集，数据进一步向后走，有些会在端侧、有些会在云端分析 & 答疑，这也涉及到端侧算力资源 & 功耗的瓶颈，链路延时优化，以及云端 Token 成本的整体考量，由此芯片原厂与模型厂如何软硬协同 & 端云结合，优化机器人多模态体验？

瑞芯微王鹏程：面对端侧 AI 爆发，机器人终端对边缘芯片的算力泛化能力提出了新要求。瑞芯微正通过多核异构调度以及纯端侧（数据不出端）的推理底座优化，同时与模型厂紧密配合，从硬件层面降低多模态在终端产品上的部署门槛。

阶跃星辰赵皓天：澄清下，我们的概念不在「端云协同」，在「端云一体」，实际上我们在云端模型与端侧模型的链路本身有耦合。举个例子，阶跃落地的一些手机场景，手机端侧会跑一些特殊数据集训练的模型，手机一些文本数据经过端侧模型处理，会再上传云端，再进行处理。同样在机器人行业，大模型服务商目前的优化方向是开发机器人行业专用的多模态模型，进行轻量化与定制化裁剪，并探索端侧轻模型与云端大模型相互配合的「端云一体」路线，在端侧有限算力下达到最优体验。

话题四：大模型层的路线取舍与优化

声网左冬冬：数据从端侧再向后，就需要声网 RTC 链路。之前长文本 & 大语言模型，设备端到大模型之间多用 websocket 传输数据，很多情况够用。随着多模态大模型发布，也对数据通道的延时性能、抗弱网能力等都提出更高要求，如国内外多模态大模型企业，在发布多模态大模型同时，同步发布用于音视频、大文件等非结构化数据传输的通道，这一连接端侧到多模态大模型的通道，底层就是 RTC。声网作为 RTC 服务商，节点覆盖全球，可以很好服务于，全球售卖的多模态智能硬件。

声网左冬冬：通用大模型直接落地机器人端侧，普遍存在推理慢、幻觉重、场景适配差以及实时性不足等问题。大模型服务商在做机器人行业专用多模态模型时，做了哪些轻量化、定制化优化？此外，端侧部署与云端大模型这两条路线，在机器人产品中应该如何配合？

阶跃星辰赵皓天：通用大模型直接落地确实存在推理慢、幻觉重等问题。如果将每秒的音视频数据毫无保留地全量输入给模型，任何硬件都无法承受。因此，我们致力于持续动态的视觉理解与全天候语音推理，在交互过程中通过端侧算法，将冗余的画面与杂音在第一道门槛进行结构化特征剪裁与高频连续处理。在路线上，由大模型负责拆解意图，高频、高实时和隐私性强的交互留在本地；复杂的场景推理则配合本地 RAG（检索增强生成）知识库与云端大模型进行结合，以此实现算力与功耗的平衡。

话题五：商业化前景与海内外市场反馈

声网左冬冬：多模态机器人由于成本和技术成熟度等原因，面临「尝鲜期短、复购率低、易吃灰」的挑战。如何通过技术打磨和场景闭环跨越这条「体验死亡线」？机器人的规模落地，需要在具体场景解决具体问题，未来 1-2 年内率先实现大规模商业化落地的破局场景是什么？

吉利杨硕：汽车行业是 AI 进入物理世界最早的大规模场景之一，提前攻克了强噪声环境、多人同时交互、安全与实时性、弱网环境、多设备协同等技术泥潭。我们的智能座舱在车内多模态交互矩阵上已经实现了场景闭环，这些闭环能力与工程经验正在反向向家庭空间和移动机器人迁移。车内智能化空间会是商业化闭环最快的场景。

瑞芯微王鹏程：算力向端侧回归是必然趋势，未来的技术路线将以端云协同为主。本地轻模型处理高频、高实时和隐私性强的交互（实现敏感数据不出端），云端大模型负责复杂推理。基于「主控 + 协处理器」架构的高性价比端侧推理硬件，在未来 1-2 年内会迎来真正的量产爆发。

赋之李光东：跨越死亡线的关键，在于给冷冰冰的模型建立长期记忆与主动关怀，赋予其温度与陪伴的外衣，否则每天重复机械对话必然会被淘汰。关于销售情况，目前赋之科技在海外的销售占比相对较大，海外市场目前大约占到七至八成。因为在当下这个探索阶段，如果急于向用户收费，本身就会筑起门槛，对于整个机器人产品生态的长期发展并不是一件好事。

深圳湾简评：多模态实时交互的协同新篇章

纵观全场论坛的交锋与共识，你会发现，PhysicalAI 从实验室走向规模化量产，从来都不是某一个单点技术的独舞，而是一场端、边、云、模型、网络与硬件全链路协同的系统工程。

在最后的圆桌对话中，这种产业链上下游的协同变得尤为清晰：阶跃星辰在用端云协同去驯服大模型的算力饥饿与场景幻觉；瑞芯微在用多核异构的平台化芯片为端侧敏感数据拉起隐私的底线；声网则将过去十年服务于「人与人连接」的实时网络能力，重新定义为 PhysicalAI 时代服务于「AI 与人连接」的实时神经系统，在毫秒之间传递着情绪、呼吸感与无感打断的交互节奏。

从吉利在智能座舱里替行业提前踩过的抗噪与弱网之坑，到赋之科技为了不让机器人回家「吃灰」而死磕的长期记忆与主动关怀，这些行走在一线的探索者们，正在用最务实的态度去解最难的题。

大模型决定了 AI 的聪明上限，但唯有软硬一体的协同、超低延迟的多模态同步和声学工程的细水长流，才能真正脱掉 AI 身上那层呆板的算法外衣，赋予它在物理现实里安身立命的温度。PhysicalAI 的大规模破局或许仍有一段路要走，但在这场全产业链的并肩奔跑中，关于未来的轮廓正在被勾勒得更加清晰。

◀

Coming soon！

下期活动预告

声网 RTE2026 春夏巡游

▶

声网在实时互动（RTE）技术上的每一次迭代，都在刷新我们对人机交互的认知。从让设备「能听会说」的 R1 套件，到如今全场景升级、实现「能看会动」关键跨越的 R2 全场景 AI 机器人开发套件，多模态交互的想象边界正在被不断延伸。

回望过去，由声网发起并连续举办十一届的 RTE 实时互联网大会，见证了整个行业从 RTC 实时通讯技术向 RTE 实时互动场景的爆发。今天，随着大模型与实时音视频技术的深度融合，RTE+AI 正在开启一个「人人可对话、物物可交互」的智能体新纪元。

一路探索，我们始终在寻找同一个问题的答案：在数字与物理世界的交界处，机器与人之间，究竟如何建立起真实且持续的情感连接？

为了将这种探索从会场带向产业一线，从 RTE2025 的深入探讨，到 CES2026 特别活动与 AWE2026 的现场，声网围绕 AI 陪伴新物种与多模态交互技术的讨论从未停止。