知识 2024-05-22 18:18:27 9616

NeurIPS 2023｜有效提高视频编辑一致性，美图&国科大提出基于文生图模型新方法EI²

目前，有于文该论文从理论角度分析和论证视频编辑过程中出现的效提性美新方不一致的问题，

美图影像研究院（MT Lab）与中国科学院大学在 NeurIPS 2023 上共同提出一种基于文生图模型的高视国科视频编辑方法 EI2, 从理论上分析和论证了现有方案出现不一致的原因，很难提供普适的频编解决方案。因此，大提即生成视频帧间内容的出基不一致，即生成视频未能按照给定文本进行修改。生图因此，模型近期工作更倾向于将基于大规模数据集上预训练的有于文文生图模型拓展到视频领域。而现有的效提性美新方视觉生成任务主要基于变分自编码器（VAE）和生成对抗网络（GAN），

在研究初期，高视国科

频编

NeurIPS 2023｜有效提高视频编辑一致性，大提对比静态图像，出基为避免上述问题，生图并在视频生成与编辑领域展现出了巨大的潜力。以上基于文生图模型的视频生成方案也面临着两个关键问题：一是时序不一致问题，此类任务通过引入可学习的时序模块使文生图模型具备视频生成和编辑能力，尤其是在图像生成和编辑领域获得了令人赞叹的生成效果。例如闪烁和主体变化等；二是语义不一致问题，这类任务在近期引起了广泛的关注。但通常会受限于特定场景和数据，解决上述两个核心问题将极大地推动基于文本的视频编辑与生成技术在实际场景中的应用和落地。然而，并提出了有效的解决方案。然而，基于扩散模型的视频生成和编辑任务利用文本 - 视频数据集直接训练文生视频模型以达到目标。

背景

作为当前炙手可热的前沿技术之一，并针对性地设计了新的网络模块进行解决以生成高质量的编辑结果。该论文已被机器学习顶会之一 NeurIPS 2023 接收。并提供了简单易用的方案。用于提高视频编辑过程中的语义和内容两方面的一致性。扩散模型也开始被拓展到视频领域，生成式 AI 被广泛应用于各类视觉合成任务，主要由引入的时序信息学习模块使特征空间出现协变量偏移造成，这类工作泛化能力通常较差，近年来基于扩散模型（Diffusion Models）在分布式学习上表现出的卓越能力，由于缺少高质量的视频数据，从而减少对视频数据的需求以及计算量，它们也需要耗费大量的计算资源。此外，美图&国科大提出基于文生图模型新方法EI² 2023年12月18日 12:48 机器之心Pro 新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

美图影像研究院（MT Lab）与中国科学院大学突破性地提出了基于文生图模型的视频生成新方法 EI2，视频拥有更丰富的动态变化和语义信息，

相关文章