当前位置：

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统

时间:2024-10-25 18:00:40出处:热点阅读（143）

智源研究院：原生多模态世界模型Emu3发布，智源实现视频、研究院原图像、生多世界文本大一统 2024年10月23日 18:06 新浪科技新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

　　新浪科技10月23日下午消息，模态模型智源研究院近日宣布原生多模态世界模型Emu3发布。布实本该模型实现了视频、现视像文图像、频图文本三种模态的智源统一理解与生成。据悉，研究院原Emu3只基于下一个token预测，生多世界无需扩散模型或组合式方法，模态模型便能把图像、布实本文本和视频编码为一个离散空间，现视像文在多模态混合序列上从头开始联合训练一个Transformer，频图展现了其在大规模训练和推理上的智源潜力。

分享到：

上一篇：聚焦核心资产注重新质生产力广发中证A500指数基金今起发售

下一篇：工信部部长金壮龙会见苹果公司首席执行官库克

温馨提示：以上内容和图片整理于网络，仅供参考，希望对您有帮助！如有侵权行为请联系删除！

矜功伐善网

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统

猜你喜欢

热门排行

看了又看

最新标签

友情链接：

矜功伐善网

智源研究院：原生多模态世界模型Emu3发布， 实现视频、图像、文本大一统

猜你喜欢

热门排行

看了又看

最新标签

友情链接：

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统