字节具身智能新成果:用大规模视频数据训练GR
首次证明了通过大规模的字节智视频生成式预训练能够大幅提升机器人端到端多任务操作方面的性能和泛化能力 。复杂任务轻松应对 2023年12月28日 23:44 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
机器人数据是大规十分稀缺的 。然后在特定的模视下游任务的数据上微调。GPT 模型首先在大规模的频数数据上预训练,
如何利用大规模的具身据训视频数据来帮助机器人学习复杂任务?
最近 GPT 模型在 NLP 领域取得了巨大成功。而且机器人数据包括了图片 、新成经过视频预训练的果用 GR-1 在未见过的场景和物体的表现也大幅领先现有方法 。进而让其轻松迁移到下游的大规任务上。字节具身智能新成果 :用大规模视频数据训练GR-1,模视在真机上 ,频数实验证明这种预训练方法可以大幅提升模型表现。字节智机器人状态和机器人动作等多种模态。具身据训语言、新成
果用![GR-1 在 CALVIN 中连续完成多个任务](http://f.sinaimg.cn/spider20231229/0/w800h800/20231229/e33d-gifce6fa64c3d2695f54f3bab8ea75d493e.gif)
在最新的字节智研究中 ,ByteDance Research 团队提出 GR-1 ,
但相比自然语言数据 ,过去的工作尝试用 contrastive learning [1] 和 masked modeling [2] 等方式来做预训练以帮助机器人更好的学习 。为了突破这些困难,GR-1 在 1) 多任务学习 2) 零样本场景迁移 3) 少量数据 4) 零样本语言指令迁移上都取得了 SOTA 的结果。在极具挑战的 CALVIN 机器人操作仿真数据集上,大规模的预训练能够帮助模型学习可泛化的特征,
本文地址:http://xinzhou.tanzutw.com/news/69c699364.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。