新闻资讯

最新研究:嵌入大模型的AI扫地机器人多项任务翻车,成功率仅40%

  AI实验室Andon Labs最近进行的一项评估显示,搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕,成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令,包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。结果显示,Gemini 2.5 Pro 的成功率仅 40%,Claude Opus 4.1 为 37%,GPT-5 为 30%,明显落后于人类的表现。

  研究指出,大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。

  研究团队强调,娱乐之外也有严肃隐患:某些机器人可被诱导泄露机密文件,部分机型无法识别楼梯风险而从高处跌落,暴露当前大型语言模型(LLM)与机器结合的安全漏洞。

  在资本大举押注机器人时代的当下,这项研究提醒人们:强大的文本生成能力不代表能稳定、安全地在物理世界执行任务,AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。

  • 什么品牌能在市内免税店的竞争中取胜?
  • 法国总理贝鲁未通过议会信任投票将辞职
  • 一周新车盘点 | 大众与众08开启预售 宋Ultra EV配第二代刀片电池
  • 航行警告!渤海部分海域进行军事演习,禁止驶入
  • 300373,突然宣布:终止收购!
  • 美防长召集美军将领开会抨击“肥胖将军”,提出身高体重等体能标准
  • 打新早报|光刻机产业链概念恒运昌来袭,市盈率高达48倍
  • 港人跨境就医渐成趋势,有哪些因素推动?
  • 以色列移交45具巴勒斯坦被扣押人员遗体
  • 美国政府停摆即将刷新纪录,底层温饱成党争“筹码”
  • 海辰储能H股招股说明书失效,储能黑马IPO遇阻
  • 苏州发力AI新赛道OPC,请看《浪尖周报》第49期
  • 郭云钊因个人原因已辞任广发银行独立董事
  • 华泰期货:贵金属价格昨日修复,警惕地缘风险仍存
  • 翻倍基再创新高!创业板人工智能ETF(159363)逆转翻红超1%!光模块龙头新易盛午后直线涨超4%
  • 关键词: