MIT突破性研究:机器人通过视觉自学习实现高精度操控
你是否曾想象,机器人能像人类一样通过观察学习控制自己?现在,这不再是科幻!近日,麻省理工学院(MIT)三位华人博士主导的具身智能研究登上《自然》主刊,引发全球瞩目。
图 | 从左到右:李思哲、张安南和陈博远(来源:资料图)
仅靠视觉实现机器人控制
论文主要作者李思哲在社交平台强调:“核心在于,具身智能必须感知自身位置并最大化利用身体能力。”这项研究提出了一种基于视觉的深度学习方法,仅需一个RGB摄像头就能高精度执行复杂运动轨迹,无需任何物理传感器。
传统机器人建模简单,但仿生机器人因材料柔软、结构多变,难以精准控制。MIT团队另辟蹊径,利用深度神经网络将视频流映射到视觉运动雅可比场,彻底绕过传统建模难题。
该方法仅通过观察随机指令视频就能自我训练,无需专家干预,且适用于各种机器人设计。团队在三种截然不同的操纵器上验证了其普适性:丹麦UR5机械臂、韩国Allegro Hand灵巧手和法国Poppy柔性臂。
实验场景生动展现其多样性:
UR5气动手臂在系统控制下流畅地从杯中取物,并精准推动苹果,动作如行云流水。
(来源:Nature)
Allegro Hand在指令下灵活握拳,并在剪切辅助材料平台上完成伸展旋转,展现多场景适应性。
(来源:Nature)
Poppy机械臂在空中精准书写“MIT”字母,误差不足6毫米,证明其高精度闭环控制能力。
(来源:Nature)
系统无需人工建模即可还原机器人动态结构,在多种任务中表现稳定,为软硬件混合机器人部署开辟新路径。
视觉运动雅可比场核心技术
框架包含两大创新模块:深度学习状态估计模型和逆动力学控制器。前者从单摄像头视频中推断机器人三维几何与运动学特性;后者在图像或三维空间参数化运动指令,实现实时交互。
团队发现,将轨迹密集参数化为点运动是关键突破,使机器人能模仿视频演示。状态估计模型通过神经场景表征,重建辐射场和雅可比场,直接学习运动关系,摆脱传感器依赖。
训练采用自监督方式,12台RGB-D摄像机捕捉多视角随机指令视频,通过光流法提取运动数据。模型从单帧图像预测三维运动场,并通过体渲染技术验证准确性。
图 | 此次使用的系统(来源:Nature)
闭环控制性能卓越
在Allegro Hand测试中,系统跟踪二维轨迹误差小于3度,指尖误差仅4毫米。即便对HSA平台施加外力干扰,系统仍保持7.3毫米精度,凸显抗扰动能力。
Poppy机械臂绘制图形和字母时,平均误差低于6毫米,且能迁移不同视角演示,中位误差仅2.2°。该方法取代了耗时数月的专家建模流程,动态适应性强。
这项技术将大幅降低自动化门槛,推动仿生机器人普及。未来已来,你想亲自体验这项变革吗?欢迎在评论区分享你的见解,共同探索智能科技前沿!
参考资料:
https://www.linkedin.com/in/lester-sizhe-li/
https://www.linkedin.com/in/annan-zhang/
https://www.linkedin.com/in/boyuan99/
Li, S.L., Zhang, A., Chen, B. et al. Controlling diverse robots by inferring Jacobian fields with deep networks. Nature 643, 89–95 (2025). https://doi.org/10.1038/s41586-025-09170-0
运营/排版:何晨龙
相关问答
机器人自动控制系统原理?
机器人控制系统核心由控制主体、客体及媒体构成,形成具备自主目标的功能体系,可精确调整机器运行状态。
机器人是怎么样控制的呢-ZOL问答
机器人控制需先建立运动模型(如DH模型),分析关节运动对整体位姿的影响,进而实现精准操控。
C语言编程怎样控制机器人?
尽管C语言理论上可行,但因复杂性与局限性,实际多采用高级框架或专用库简化开发流程。
人们实现对机器人的控制包括?
常用方法包括混合力位控制与阻抗控制,前者由JPL团队研发,适用于精细操作场景。
什么是机器人闭环控制?
闭环控制通过实时反馈调整指令,确保精度;开环则依赖预设模型,适应性较差。
我的专业是机器人控制,未来的就业前景好不好?-ZOL问答
机器人控制专业前景广阔,涵盖工业、医疗、军事等领域,未来需求持续增长。
伺服控制型机器人可分为哪几种?
主要包括点位伺服与连续路径伺服控制,分别适用于离散动作和复杂轨迹任务。
小时候看的一部日本动画片,上面有几个孩子能控制机器人战斗,其中有个红色的机器人经常不受控制?
疑似《超福音战士》(EVA),红色机甲初号机在剧情中常有暴走情节。
工业机器人用plc控制还是自己有一套控制?
工业机器人拥有专用控制系统,PLC多用于辅助流程,无法独立处理复杂运动。
智能机器人的核心技术是什么-懂得
核心技术在于远程控制与自主决策能力,确保机器人在动态环境中稳定运行。