谷歌DeepMind推出Gemini Robotics模型,引领机器人智能新时代
2025 年 3 月,谷歌 DeepMind 正式发布两款全新的基础模型——Gemini Robotics 和 Gemini Robotics-ER,目标是构建下一代能够在现实世界中灵活行动的智能机器人。这两个模型的推出标志着机器人技术在通用性、适应性和灵巧性三大领域取得重大突破,为机器人从研究实验室走向实际应用铺平了道路。
两款模型基于多模态基础模型构建,能够处理文本、语音和图像数据,将这些信息转化为机器人可执行的物理操作。其中,首款模型Gemini通过整合“视觉-语言-动作”能力,赋予机器人理解复杂指令并执行相应任务的能力。即使是此前未见过的场景和任务,机器人也能通过模型内置的通用知识和推理能力完成操作。例如,在一段展示视频中,机器人根据语音指令“把篮球扣进篮筐”完成了一次“扣篮”,尽管动作无需达到NBA级别,但这一能力的背后展示出机器人对“篮球”“篮筐”“扣篮”等抽象概念的理解和实践。
DeepMind首席软件工程师罗阿(Rao)对此表示,“这一突破是因为模型能够将概念迁移到实际场景中,同时兼具灵活性和准确性。”
据DeepMind机器人主管帕拉达(Parada)介绍,Gemini Robotics相较以往技术在三大能力上实现了质的飞跃:
- 广泛的概念迁移能力(通用性):机器人可以将从一个环境中学习到的概念灵活应用于完全不同的场景,例如视觉识别、指令理解和动作执行的跨情境通用性。
-
实时适应能力(适应性):机器人可以针对不断变化的环境条件调整自己的行为。在一段演示中,研究人员不停移动放置目标容器的位置,但机器人依然精准完成了将塑料葡萄放入透明容器的任务。
-
精细动作能力(灵巧性):新模型显著提升了机器人处理微妙任务的能力,例如折纸和精确抓取。然而,这些示范依赖于高质量的特定任务训练数据,因此现阶段模型的灵巧性尚有一定局限性。
与Gemini Robotics不同,第二款模型Gemini Robotics-ER专注于实现“具身推理”能力,即赋予机器人类似于人类的直觉化物理世界理解。例如,模型可以识别咖啡杯的最佳抓取点为杯柄,但DeepMind团队也提出,这类基于人类行为的数据可能会对机器人产生局限,例如热咖啡时杯柄薄弱可能反而不如杯身握持更安全。
安全性一直是机器人技术发展的关键问题。DeepMind负责安全的负责人辛德瓦尼(Sindhwani)解释道,新一代机器人采用了多层次安全系统设计。除了传统的物理稳定性保护外,Gemini Robotics-ER还具备语义安全能力,即在执行指令前评估任务潜在的后果是否安全。例如,模型能通过内置的常识规则识别“将软玩具放在热炉上”或“将漂白剂与醋混合”是危险的举动。在测试中,该模型超过80%的情境评估结果准确无误,为机器人在现实社会的应用打下安全基础。
为了推动技术落地及更广泛的应用,DeepMind已宣布与人形机器人公司达成合作协议,共同研发基于Gemini核心的新一代机器人。同时,DeepMind还将这些模型开放给一组经过深度筛选的合作伙伴进行试用,并计划通过共享数据集和基准测试推动行业整体安全能力提升。
Gemini Robotics及其衍生技术的诞生,不仅展示了人工智能与机器人领域的最新进展,也为人类社会引入更加智能化的劳动力铺垫了基础。从理解抽象概念到高精度任务操作,这些模型让人类社会距离高效、安全、智能的机器人未来更近一步。
(本文原载于IEEE Spectrum 2025年5月刊)
[机器洞察网出品] [机器人通用性创新] [人工智能机器人适应性] [DeepMind Gemini机器人模型] [机器人安全与多模态融合] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [黄金广告位]
📚 更多资源分享:刘智勇频道第五卷
💾 百度网盘链接:
https://pan.baidu.com/s/1wt8v6MyTmc3rGizAldR1ow?pwd=qwer
🔑 提取码: qwer
多模态基础模型太厉害了,感觉机器人都快从工具变伙伴了!
推动技术落地,不仅是一种责任,更是一种笃定科技要为人类服务,造福社会!