Uploads%2farticles%2f16850%2fdsc 6989 opq4603504963

1 小时前

圆桌对话：PhysicalAI 距离大规模落地还有多远？

多位行业资深人士，围绕全链路卡点、端侧感知与大模型的联动、端云一体路径，以及商业化破局场景展开了硬核交锋。

在 5 月 16 日 RTE 机器人论坛最后的圆桌论坛环节，来自声网的圆桌主持人左冬冬（声网 IoT 行业负责人）与五位来自产业链上下游的嘉宾展开了深度对谈。

圆桌主持：左冬冬（声网 IoT 行业负责人）[左一]
对话嘉宾：[从左向右]
杨硕（吉利汽车研究院人工智能中心全域 AI 业务负责人）
李光东（赋之科技 Enabot 产品负责人）
赵皓天（阶跃星辰 IoT 负责人）
王鹏程（瑞芯微高级市场经理）
谭树豪（上海互问信息科技有限公司市场总监）

以下为圆桌对话的精彩实录提炼：

话题一：全链路的卡点与技术诉求

声网左冬冬：当前 AI + 多模态机器人从实验室走向规模化落地，并非单点技术问题，而是一整套协同工程。大家观察到目前全链路最大的卡点是什么？是算力、模型适配、传输稳定性，还是场景适配或成本问题？

吉利杨硕：从构建全场景的策略来看，最大的卡点在于跨场景的连续性。当前智能家居、车机与穿戴设备各自独立，用户意图在设备切换时会发生断裂，导致体验极度碎片化。

赋之李光东：整机厂在集成芯片、感知、模型和传输时，最棘手的是供应链的兼容性、联调与稳定性。面对目前碎片化和定制化的上下游，如何实现一套可规模复制的软硬件架构是核心痛点。

上海互问谭树豪：最大卡点在于前端感知层。声源定位、降噪等前端基础如果不够精准，大模型的语音识别与语义理解就会交互崩溃。因此，行业首要解决的是前端的感知误判。

阶跃星辰赵皓天：主要卡在大模型在物理世界中的「空间智能」和动作确定性上。机器人需要的大模型能力不是简单的文字聊天，而是对环境的感知、长期记忆以及多模态推理能力。

瑞芯微王鹏程：核心在于多模态并发带来的端侧算力、功耗与成本控制。大模型落地需要更自然、聪明的交互，但如何在终端产品受限的功耗下算好成本账，是规模化量产的卡点。

话题二：端侧感知层与大模型的深度联动

声网左冬冬：机器人实际服务中常处于各种嘈杂环境。作为第一信息感知层，麦克风阵列与大模型的语音识别、语义理解如何深度联动？机器人企业如何解决「感知不准，造成模型误判」的链路问题？

上海互问谭树豪：这主要取决于具体的对话模式与高噪声场景。机器人的应用场景非常广泛，既有高噪声的现场场景，也有复杂的家庭场景。例如在家庭场景中，用户经常会开着电视，此时如果要与机器人聊天，电视声音就会造成严重干扰。如果系统具备波束成形（Beamforming）能力，将波束精准锁定在主说话人的方位，电视背景音就会被有效抑制，从而消除环境干扰。未来当端侧芯片、算法与麦克风阵列的性价比控制在生产级可用区间时，消费级市场的出货量将会放得最大。

赋之李光东：解决感知误判不能只看孤立的硬件降噪指标。我们主张通过视觉和声音的多模态组合，在感知识别链路进行工程化创新（例如融合弱人脸条件下的身份线索）。把「空间 — 身份 — 记忆」当作一项长期的系统能力输入给模型，让机器人能够自主识别当前交互对象的身份，从而动态切换其陪伴的人设与话术节奏。

话题三：端云结合的价值

声网左冬冬：多模态大模型场景中，端侧感知数据「精准」收集，数据进一步向后走，有些会在端侧、有些会在云端分析 & 答疑，这也涉及到端侧算力资源 & 功耗的瓶颈，链路延时优化，以及云端 Token 成本的整体考量，由此芯片原厂与模型厂如何软硬协同 & 端云结合，优化机器人多模态体验？

瑞芯微王鹏程：面对端侧 AI 爆发，机器人终端对边缘芯片的算力泛化能力提出了新要求。瑞芯微正通过多核异构调度以及纯端侧（数据不出端）的推理底座优化，同时与模型厂紧密配合，从硬件层面降低多模态在终端产品上的部署门槛。

阶跃星辰赵皓天：澄清下，我们的概念不在「端云协同」，在「端云一体」，实际上我们在云端模型与端侧模型的链路本身有耦合。举个例子，阶跃落地的一些手机场景，手机端侧会跑一些特殊数据集训练的模型，手机一些文本数据经过端侧模型处理，会再上传云端，再进行处理。同样在机器人行业，大模型服务商目前的优化方向是开发机器人行业专用的多模态模型，进行轻量化与定制化裁剪，并探索端侧轻模型与云端大模型相互配合的「端云一体」路线，在端侧有限算力下达到最优体验。

话题四：大模型层的路线取舍与优化

声网左冬冬：数据从端侧再向后，就需要声网 RTC 链路。之前长文本 & 大语言模型，设备端到大模型之间多用 websocket 传输数据，很多情况够用。随着多模态大模型发布，也对数据通道的延时性能、抗弱网能力等都提出更高要求，如国内外多模态大模型企业，在发布多模态大模型同时，同步发布用于音视频、大文件等非结构化数据传输的通道，这一连接端侧到多模态大模型的通道，底层就是 RTC。声网作为 RTC 服务商，节点覆盖全球，可以很好服务于，全球售卖的多模态智能硬件。

声网左冬冬：通用大模型直接落地机器人端侧，普遍存在推理慢、幻觉重、场景适配差以及实时性不足等问题。大模型服务商在做机器人行业专用多模态模型时，做了哪些轻量化、定制化优化？此外，端侧部署与云端大模型这两条路线，在机器人产品中应该如何配合？

阶跃星辰赵皓天：通用大模型直接落地确实存在推理慢、幻觉重等问题。如果将每秒的音视频数据毫无保留地全量输入给模型，任何硬件都无法承受。因此，我们致力于持续动态的视觉理解与全天候语音推理，在交互过程中通过端侧算法，将冗余的画面与杂音在第一道门槛进行结构化特征剪裁与高频连续处理。在路线上，由大模型负责拆解意图，高频、高实时和隐私性强的交互留在本地；复杂的场景推理则配合本地 RAG（检索增强生成）知识库与云端大模型进行结合，以此实现算力与功耗的平衡。

话题五：商业化前景与海内外市场反馈

声网左冬冬：多模态机器人由于成本和技术成熟度等原因，面临「尝鲜期短、复购率低、易吃灰」的挑战。如何通过技术打磨和场景闭环跨越这条「体验死亡线」？机器人的规模落地，需要在具体场景解决具体问题，未来 1-2 年内率先实现大规模商业化落地的破局场景是什么？

吉利杨硕：汽车行业是 AI 进入物理世界最早的大规模场景之一，提前攻克了强噪声环境、多人同时交互、安全与实时性、弱网环境、多设备协同等技术泥潭。我们的智能座舱在车内多模态交互矩阵上已经实现了场景闭环，这些闭环能力与工程经验正在反向向家庭空间和移动机器人迁移。车内智能化空间会是商业化闭环最快的场景。

瑞芯微王鹏程：算力向端侧回归是必然趋势，未来的技术路线将以端云协同为主。本地轻模型处理高频、高实时和隐私性强的交互（实现敏感数据不出端），云端大模型负责复杂推理。基于「主控 + 协处理器」架构的高性价比端侧推理硬件，在未来 1-2 年内会迎来真正的量产爆发。

赋之李光东：跨越死亡线的关键，在于给冷冰冰的模型建立长期记忆与主动关怀，赋予其温度与陪伴的外衣，否则每天重复机械对话必然会被淘汰。关于销售情况，目前赋之科技在海外的销售占比相对较大，海外市场目前大约占到七至八成。因为在当下这个探索阶段，如果急于向用户收费，本身就会筑起门槛，对于整个机器人产品生态的长期发展并不是一件好事。

更多本场活动精华内容，请访问：