最新研究：嵌入大模型的AI扫地机器人多项任务翻车，成功率仅40%

时间：2025-11-03 00:00:01 栏目：新闻资讯浏览：8

　　AI实验室Andon Labs最近进行的一项评估显示，搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕，成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令，包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。结果显示，Gemini 2.5 Pro 的成功率仅 40%，Claude Opus 4.1 为 37%，GPT-5 为 30%，明显落后于人类的表现。

　　研究指出，大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。

　　研究团队强调，娱乐之外也有严肃隐患：某些机器人可被诱导泄露机密文件，部分机型无法识别楼梯风险而从高处跌落，暴露当前大型语言模型（LLM）与机器结合的安全漏洞。

　　在资本大举押注机器人时代的当下，这项研究提醒人们：强大的文本生成能力不代表能稳定、安全地在物理世界执行任务，AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。

什么品牌能在市内免税店的竞争中取胜？

法国总理贝鲁未通过议会信任投票将辞职

一周新车盘点 | 大众与众08开启预售宋Ultra EV配第二代刀片电池

航行警告！渤海部分海域进行军事演习，禁止驶入

300373，突然宣布：终止收购！

美防长召集美军将领开会抨击“肥胖将军”，提出身高体重等体能标准

打新早报｜光刻机产业链概念恒运昌来袭，市盈率高达48倍

港人跨境就医渐成趋势，有哪些因素推动？

以色列移交45具巴勒斯坦被扣押人员遗体