Saturday, August 2, 2025

语言革命助机器人掌握无限可能世界

必读文章
曲丽华
曲丽华https://www.roboinsight.online
热衷于机器人和科技伦理问题的探讨,擅长分析人工智能对社会的影响,以理性与深度赢得读者信任。

Image 0

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究团队近日开发了一项名为“用于机器人操控的特征场”系统(Feature Fields for Robotic Manipulation,简称F3RM),成功赋予机器人通过自然语言理解和处理开放式指令的能力。这项技术使机器人具备在复杂、多样化环境中感知、理解并操作未曾见过的物体的能力,迈出了机器人在实际场景中实现高效通用性的重要一步。

F3RM融合了2D图像和基础模型特征,构建出3D场景。这种技术赋予了机器人解析语言提示的能力,能够根据人类指令抓取特定目标物体。例如,当用户发出“拿一个高杯子”这样的模糊请求时,机器人可以快速找到与描述最相符的物体并完成任务。这种能力在家庭、仓储和城市环境中尤为实用,将显著提升操作复杂任务的效率。

“让机器人在现实世界中实现真正的泛化能力依然极具挑战性。”麻省理工学院CSAIL博士后研究员表示,“我们的研究旨在尝试实现这种能力的大幅扩展,从简单的‘三、四样物品’到包含数千种物体的复杂场景,探索让机器人像人类一样灵活操作的可能性。”

Image 1

在大型电商仓储中心,机器人通常需要根据文本描述匹配并识别目标物品,这些物品往往因包装不同而显现出各种形式和几何特征。在这样的高复杂环境里,传统机器人难以应对。但得益于F3RM系统强大的空间感知和语义识别能力,机器人可以更精准地识别、抓取和分类物体,大幅提高订单处理的准确性和效率。

Image 2

这项系统还能够兼容房间或建筑级别的任务。据研究人员介绍,F3RM不仅可以用于仓储中心,还可以为机器人构建学习模拟环境,帮助其学会在现实场景中执行动态任务。

Image 3

“我们的目标是将这一系统发展到实时运行的水平,以便机器人能够快速适应和管理高度动态的环境任务。”研究团队成员补充道。

F3RM 的工作原理是通过一根安装有相机的“自拍杆”拍摄环境中的 50 幅图像,从而构建出周围物体的 3D 数字双胞胎模型。这一模型结合了神经辐射场技术与语义特征,利用基础视觉模型(如经过海量图像训练的 CLIP 模型),将 2D 图像信息提升至 3D 表示。这种结合创造了一种“既知道物体是什么,也知道它们在哪里”的崭新能力,被证明在需要操控 3D 物体的机器任务中尤为有效。

除了执行简单指令外,该系统还能处理更为复杂的语义请求。例如,面对两个玻璃杯,用户可以通过语言具体指出需要“装有咖啡的玻璃杯”。F3RM内嵌的基础模型特征可以有效理解并执行这样的指令,从而实现更精细的任务操控。

研究人员还通过实验验证了F3RM对新场景和物品的理解能力。在实验中,团队要求机器人抓取《超能陆战队》中Baymax的玩偶,尽管该机器人此前从未被直接训练识别此玩偶,但依靠空间感知能力和视觉-语言特征,成功选择并抓取了正确物品。

“假如一个人学会了从杯沿抓取杯子,他很快就能将这种技能迁移到操作类似形状的碗、量杯甚至胶带卷。而对机器人来说,这种泛化能力一直是极为困难的。”一位MIT CSAIL博士生指出,“通过结合几何理解和来自互联网上基础模型的语义信息,F3RM实现了从少量示例到广泛任务的高度泛化能力。”

该研究由麻省理工学院教授团队负责指导,研究团队成员包括博士生、博士后以及本科生,合作伙伴涵盖了来自亚马逊、国家科学基金会、IBM沃森实验室等多家机构的支持。该成果将于2023年度机器人学习会议(Conference on Robot Learning)上

Image 100


[机器洞察网出品] [机器人3D感知技术] [机器人语义识别与操作] [人工智能动态任务管理] [MIT机器人操控系统F3RM] [机器姬][真机智能][机器洞察网][AI之星网][风投高科网][猛虎财经网][硅基科学网]

- Advertisement -spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img
最新新闻

机器人身份平台获注资Corsha携手CybernetixVentures

“未来的产业信任,不仅建立在人类之间,更根植于机器之间的每一次动态验证。” — 未来工业安全新思维
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img