Uploads%2farticles%2f16848%2fdsc 6918 opq4602923593
|
1 小时前

阶跃赵皓天:物理世界的机器人需要空间智能

物理世界的机器人,需要的不是「文字聊天」能力,而是「空间智能」。

在 5 月 16 日声网 RTE 机器人论坛中,阶跃星辰 IoT 负责人赵皓天带来了一个关键判断:物理世界的机器人,需要的不是「文字聊天」能力,而是「空间智能」。如果大模型无法理解三维空间关系与物理实体存在,就永远无法在现实世界中做出正确决策。他同时分享了阶跃端云协同的 AI 智脑方案,以及如何用多智能体框架将「幻觉」限制在软件层面。

以下是赵皓天的分享实录精华

RTE%E5%98%89%E5%AE%BE%E5%9B%BE

赵皓天 阶跃星辰 IoT 负责人

演讲主题:《多模态大模型在机器人领域的应用与 AI 智脑方案》

作为前沿大模型领域的代表,赵皓天明确提出,今天物理世界机器人真正需要的,早已不再是传统大模型那种坐在办公室里的「文字聊天」能力。具身智能时代呼唤的是「空间智能」(SpatialIntelligence)。这意味着机器人必须对真实物理空间具备深度理解、对复杂动态环境有敏锐感知、拥有全天候的连续视觉与语音推理能力,并能自主进行长期记忆的沉淀。

赵皓天认为,如果大模型无法感知物理实体的存在,无法理解物体之间的三维空间关系,它就永远无法在物理世界中做出正确的决策与合理的动作。

阶跃星辰端云结合的 AI 智脑方案,采取本地端侧轻量化模型与云端大模型协同的路线。该方案在确保本地隐私与毫秒级高频响应的同时,提供云端无限量的深度思考调用,真正让机器人不仅能「听懂」人类的指令,更能去「理解现场、使用工具并完成真实的物理任务」,完成从虚拟世界向物理现实的硬核一跨。

物理世界的机器人需要的是空间智能(Spatial Intelligence)。」
「未来的机器人大脑不应该只活在云端,端云协同是兼顾隐私安全与无限算力的唯一解。」
DSC_6915-opq4602983724

深圳湾:通用大模型直接落地到垂直行业机器人时,经常会遇到「幻觉」问题。在聊天框里开个玩笑没关系,但如果巡检或服务机器人在物理世界中执行了「幻觉指令」,可能会导致严重的实体安全事故。阶跃是如何解决这个卡点的?

赵皓天:这确实是具身大模型最严苛的考核指标。我们的解法是放弃让通用大模型包揽一切,而是通过「端云协同 + ReAct(推理-行动)多智能体协作框架」来做确定性治理。高频、需要绝对安全反馈的本地感知数据,由本地经过确定性校准的模型即时处理。同时,我们将机器人的自主决策限制在标准的协议与可控的工具接口(如 MCP 协议)之内。大模型负责拆解意图,而动作的执行则由本地 RAG(检索增强生成)知识库和传统控制算法进行交叉验证,确保机器人的每一个物理动作都技术可信、边界明确,将幻觉限制在软件层面。

深圳湾:机器人要具备您所说的「空间智能」,需要实时处理视觉、听觉等多路多模态数据,这会让上下文(ContextWindow)迅速拉长。面对长序列带来的算力饥饿和成本激增,大模型厂该如何帮硬件厂商算账?

赵皓天:如果把每一秒的音视频都一股脑塞进大模型,任何硬件都无法承受。阶跃在算法侧的核心攻坚之一,就是「多模态的深层融合与长记忆裁剪机制」。机器人不需要记住每一帧画面,而是需要记住场景中的「实体变化」和「身份线索」。我们通过在感知层进行结构化特征提取,配合端侧轻量化的上下文动态淘汰算法,只保留对当前任务有价值的核心上下文。通过这种工程化裁剪,我们成功把 Token 的消耗和成本压到了生产级可用的区间,让长记忆不再成为硬件的成本包袱。


更多本场活动精华内容,请访问:

  • 吉列汽车 杨硕:车里踩过的坑,都是机器人走向现实的指路牌【详情:杨硕篇
  • 赋之科技 李光东:跨越家庭多模态的「体验死亡线」,告别机器人回家「吃灰」【详情:李光东篇
  • 声网 姚光华:模型决定聪明的上限,交互节奏决定是不是「活的存在」【详情:姚光华篇
  • 瑞芯微 王鹏程:敏感数据不出端侧,是 PhysicalAI 建立用户信任的终极底线【详情:王鹏程篇
  • 圆桌对话:PhysicalAI 距离大规模落地还有多远?【详情:圆桌篇
  • 活动万字长文总结【详情:活动回顾全文


主笔:周森

审校:小炫

编辑:陈述

>>
Back to top btn