字节Seed发布GR-RL 首次实现真机强化学习穿鞋带

发布时间:2025-12-02 13:28  浏览量:3

【字节Seed发布GR-RL 首次实现真机强化学习穿鞋带】《科创板日报》2日讯,字节跳动Seed团队发布最新研究成果GR-RL,着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界。GR-RL提出了一套从离线数据筛选到在线真机微调的强化学习框架,在业界首次实现“让机器人给整只鞋连续穿鞋带”。相较前作监督学习模型GR-3,GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%,减少了近70%的失败情况。