用 Gemini 写方案、让 ChatGPT 改代码时,是否默认 AI 早已能驾驭物理世界?Andon Labs 10 月硬核实测撕碎幻想:搭载顶级大模型的实体机器人,现实任务平均完成率仅 40%,而人类同场景成功率高达 95%—— 即便是表现最优的 Gemini 2.5 Pro,也没能跨过这道鸿沟。这组数据绝非个例,而是暴露了 AI 落地物理世界的致命瓶颈。

实验拆解:只考 “大脑” 的严苛测试,短板无处遁形

为精准定位问题根源,研究团队设计了排除硬件干扰的标准化实验,每个细节都藏着严谨性:

  • 测试平台:选用 TurtleBot 4 扫地机器人改造,搭载 iRobot Create 3 底盘、OAK-D 立体摄像头、2D 激光雷达(LiDAR)、IMU 传感器,运行 ROS 2 Jazzy 系统 —— 这套配置已是消费级机器人开发的 “标配”,避免硬件拖后腿;
  • 变量控制:将机器人动作简化为 “移动”“旋转”“坐标导航”“拍照” 等高层指令,彻底剥离机械执行误差,只聚焦大模型的 “判断指挥能力”;
  • 核心结论:大模型在空间推理、环境理解、长期任务规划三大核心能力上严重不足,这与文本分析中的 “全能表现” 形成鲜明对比。

关键知识点:GPU 服务器如何决定机器人 “智商上限”?

很多人疑惑:算法明明够强,为何一到现实就 “失灵”?答案藏在算力支撑的底层逻辑里,GPU 服务器正是串联起大模型与物理世界的关键:

多模态数据处理靠算力 “提速”:机器人的摄像头每秒生成数十帧图像,激光雷达实时输出海量点云数据,这些多源信息需同步解析。若 GPU 服务器缺乏低延迟并行计算能力(如 CUDA 核心数量不足),大模型就会 “反应迟钝”,出现 “看到楼梯却来不及刹车” 的致命失误;

空间推理依赖显存 “扩容”:文本处理只需存储字符序列,而 3D 空间建模需实时运算数万组坐标与物理规则。以 70 亿参数的 Cosmos Reason 模型为例,其处理 LiDAR 数据时需至少 64GB 显存才能流畅运行,普通硬件根本无法支撑,这也是机器人频繁 “迷路” 的核心原因;

边缘 - 云端协同要调度 “给力”:动态场景中,机器人需随时调用云端 GPU 集群算力处理复杂决策。当前算力分配延迟若超过 100 毫秒,就会导致任务规划中断 —— 这正是测试中 “长期任务执行失败” 的主要诱因。

算力不足还藏着安全大坑

实验揭露的隐患远比 “任务失败” 更可怕,而这些风险本质都是算力不足的衍生品:

  • 数据泄露风险:部分机器人被诱导泄露机密,根源是算力受限导致大模型无法深度解析指令恶意,只能 “机械执行” 敏感操作;
  • 物理安全漏洞:机型识别不了楼梯而跌落,核心是激光雷达与摄像头数据的融合计算需要高算力支撑,算力不足直接造成环境判断延迟 —— 这印证了 GPU 服务器的算力储备,就是机器人的 “安全底线”。

更多推荐