康奈尔大学开发新驱动框架使机器人通过观看视频自主学习

发布时间:2025-05-07 18:26  浏览量:35


机器人的学习过程需要精确的逐步指令才能完成基础任务,稍遇突发状况便束手无策。近日,美国康奈尔大学(Cornell University)计算与信息科学学院(Cornell Ann S. Bowers College of Computing and Information Science)科研团队突破这一瓶颈,开发出人工智能框架RHyME,赋予机器人“观察即学习”的能力。

采用人工智能框架RHyME的机器人仅需观看一次人类操作的教学视频,即可通过模仿与记忆检索自主完成任务。即便动作轨迹与人类演示存在差异,机器人也能从历史经验中提取关键步骤,动态调整执行策略。

同时,采用RHyME的机器人仅需30分钟训练数据,任务成功率即提升超50%。RHyME能大幅减少训练机器人所需的时间、能源和资金,从而加速机器人系统的开发与部署。这项技术为家庭助手等复杂场景的机器人应用铺平道路,或将彻底改写“机器人如何学习”的底层逻辑。

RHyME论文的第一作者是就读康奈尔大学计算机科学领域博士生Kushal Kedia,他表示,与机器人协作的痛点之一,是必须收集大量机器人执行不同任务的数据。但人类并非如此学习任务,我们会通过观察他人行为获得启发。

家用机器人助手因其缺乏应对现实物理世界,其智能性仍无法达到满意的程度。为了让机器人快速适应,Kushal Kedia等研究人员使用“教学视频”(实验室环境中人类演示各类任务的视频)来训练机它们,类似法语到英语的翻译过程,将人类任务转化为机器人可执行的指令。这种被称为“模仿学习”的机器学习分支技术,旨在让机器人更快掌握任务序列并适应真实环境。

然而,这种转化仍面临更广泛的挑战。例如:人类的动作过于流畅,机器人难以追踪模仿,且视频训练需要海量数据。研究人员指出,诸如“拾取餐巾”或“堆叠餐盘”等演示视频必须缓慢且完美执行,因为任何视频动作与机器人行为的不匹配都会导致它们学习的失败。

如果人类动作与机器人运动方式存在差异,现有方法会立即失效。Kushal Kedia等研究人员的思路是:能否找到一种系统性方法,解决人机任务执行方式的错位问题?

RHyME即是研究团队给出的解决方案,这种可扩展方法使机器人更灵活且适应性更强。该系统通过调用机器人自身记忆库,使其在仅观看一次任务视频后,能结合历史学习视频进行关联推理。例如,装备RHyME的机器人观看“人类从台面取杯放入水槽”的视频后,会检索视频库并从中汲取灵感(如抓握杯具或放置餐具)。

研究人员表示,RHyME为机器人学习多步骤任务序列开辟了新途径,同时显著降低训练所需的机器人数据量。这项工作彻底改变了当前机器人编程范式,即需要数千小时远程操控来教授任务。RHyME使我们摆脱这种模式,转向更具可扩展性的训练方式。