智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统

人参与 | 时间：2024-10-25 15:00:16

智源研究院：原生多模态世界模型Emu3发布，智源实现视频、研究院原图像、生多世界文本大一统 2024年10月23日 18:06 新浪科技新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

　　新浪科技10月23日下午消息，模态模型智源研究院近日宣布原生多模态世界模型Emu3发布。布实本该模型实现了视频、现视像文图像、频图文本三种模态的智源统一理解与生成。据悉，研究院原Emu3只基于下一个token预测，生多世界无需扩散模型或组合式方法，模态模型便能把图像、布实本文本和视频编码为一个离散空间，现视像文在多模态混合序列上从头开始联合训练一个Transformer，频图展现了其在大规模训练和推理上的智源潜力。

顶:414踩:3412

评论专区

别克LPGA锦标赛金世煐62杆领先何沐妮T4林希妤T8
美方称以方已接受一项有关加沙停火的过渡提议
TapTap PC 游戏商城《黑神话：悟空》首发活动调整：无法参与全场满减活动
李盈莹评中土之战：自己可能没有下一届奥运会了
宁王拒绝王多多背诗要求直播回应为何因"城墙"破防
上海一小哥开价值50万黄牌摩托送外卖本人回应：初衷是想低调
110万人次预约！京东宣布全球首个《黑神话：悟空》实体版收货
核电建设提速！5个核电项目获核准
武汉公开赛正赛第3日中国6胜3负肖国栋逆转囧哥
夏天夜晚拍不到银河，可以试试拍摄这几个星空主题

大寒索裘网

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统

人参与 | 时间：2024-10-25 15:00:16

评论专区

相关文章

大寒索裘网

智源研究院：原生多模态世界模型Emu3发布， 实现视频、图像、文本大一统

人参与 | 时间：2024-10-25 15:00:16

评论专区

相关文章

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统