阶跃赵皓天：物理世界的机器人需要空间智能

Uploads%2farticles%2f16848%2fdsc 6918 opq4602923593

1 小时前

物理世界的机器人，需要的不是「文字聊天」能力，而是「空间智能」。

在 5 月 16 日声网 RTE 机器人论坛中，阶跃星辰 IoT 负责人赵皓天带来了一个关键判断：物理世界的机器人，需要的不是「文字聊天」能力，而是「空间智能」。如果大模型无法理解三维空间关系与物理实体存在，就永远无法在现实世界中做出正确决策。他同时分享了阶跃端云协同的 AI 智脑方案，以及如何用多智能体框架将「幻觉」限制在软件层面。

以下是赵皓天的分享实录精华：

赵皓天 阶跃星辰 IoT 负责人

演讲主题：《多模态大模型在机器人领域的应用与 AI 智脑方案》

作为前沿大模型领域的代表，赵皓天明确提出，今天物理世界机器人真正需要的，早已不再是传统大模型那种坐在办公室里的「文字聊天」能力。具身智能时代呼唤的是「空间智能」（SpatialIntelligence）。这意味着机器人必须对真实物理空间具备深度理解、对复杂动态环境有敏锐感知、拥有全天候的连续视觉与语音推理能力，并能自主进行长期记忆的沉淀。

赵皓天认为，如果大模型无法感知物理实体的存在，无法理解物体之间的三维空间关系，它就永远无法在物理世界中做出正确的决策与合理的动作。

阶跃星辰端云结合的 AI 智脑方案，采取本地端侧轻量化模型与云端大模型协同的路线。该方案在确保本地隐私与毫秒级高频响应的同时，提供云端无限量的深度思考调用，真正让机器人不仅能「听懂」人类的指令，更能去「理解现场、使用工具并完成真实的物理任务」，完成从虚拟世界向物理现实的硬核一跨。

物理世界的机器人需要的是空间智能（Spatial Intelligence）。」

「未来的机器人大脑不应该只活在云端，端云协同是兼顾隐私安全与无限算力的唯一解。」

深圳湾：通用大模型直接落地到垂直行业机器人时，经常会遇到「幻觉」问题。在聊天框里开个玩笑没关系，但如果巡检或服务机器人在物理世界中执行了「幻觉指令」，可能会导致严重的实体安全事故。阶跃是如何解决这个卡点的？

赵皓天：这确实是具身大模型最严苛的考核指标。我们的解法是放弃让通用大模型包揽一切，而是通过「端云协同 + ReAct（推理-行动）多智能体协作框架」来做确定性治理。高频、需要绝对安全反馈的本地感知数据，由本地经过确定性校准的模型即时处理。同时，我们将机器人的自主决策限制在标准的协议与可控的工具接口（如 MCP 协议）之内。大模型负责拆解意图，而动作的执行则由本地 RAG（检索增强生成）知识库和传统控制算法进行交叉验证，确保机器人的每一个物理动作都技术可信、边界明确，将幻觉限制在软件层面。

深圳湾：机器人要具备您所说的「空间智能」，需要实时处理视觉、听觉等多路多模态数据，这会让上下文（ContextWindow）迅速拉长。面对长序列带来的算力饥饿和成本激增，大模型厂该如何帮硬件厂商算账？

赵皓天：如果把每一秒的音视频都一股脑塞进大模型，任何硬件都无法承受。阶跃在算法侧的核心攻坚之一，就是「多模态的深层融合与长记忆裁剪机制」。机器人不需要记住每一帧画面，而是需要记住场景中的「实体变化」和「身份线索」。我们通过在感知层进行结构化特征提取，配合端侧轻量化的上下文动态淘汰算法，只保留对当前任务有价值的核心上下文。通过这种工程化裁剪，我们成功把 Token 的消耗和成本压到了生产级可用的区间，让长记忆不再成为硬件的成本包袱。

更多本场活动精华内容，请访问：