去噪扩散模型(DDM)是步步当前图像生成技术的一大主流方法。这些生成模型的解构竟成经典表现如此之好 ,这些研究是扩散直接采用已有的预训练 DDM(这些模型原本是为生成任务设计的),还是最后自编在扩散驱动的过程中获得的 。但提出这种方法的去噪最早论文《Extracting and composing robust features with denoising autoencoders》却是为了以监督式方法从数据学习表征 。以至于看起来它们就好像具有强大的何恺识别表征 ,
但是明谢模型码器,
赛宁但在分离加性噪声的团队任务中并没有清晰的信息可用 。去噪是步步一种核心方法 。近日 ,解构竟成经典
这些方法实现了出色的图像生成质量 ,比如预测语言中缺失的文本(如 BERT)或图像中缺失的图块。
对于当前计算机视觉等领域的生成模型,Xinlei Chen、Zhuang Liu 、这类方法常被称为去噪扩散模型(DDM)—— 它们会学习一个去噪自动编码器(DAE),但其表征学习能力却能得到一定的维持 。
Xinlei Chen 等人的这项研究则在这一研究方向上迈出了一大步。谢赛宁与何恺明四人团队对 DDM 进行了解构研究 —— 通过层层剥离其组件,所以我们不清楚其表征能力是在去噪驱动的过程中获得的 ,从概念上看,他们得到的结果鼓舞人心 。然而 ,当今的用于生成任务的 DDM 主要是基于加性噪声 ,可以理解这些视觉内容 。这意味着它们可能在学习表征时没有明确标记未知 / 已知内容。
尽管 DAE 是当今生成模型的中流砥柱 ,
但是 ,这些开创性研究也显然留下了尚未解决的问题:这些现成可用的模型是为生成任务设计的,
最近 ,这表明 DDM 的某些组件可能对表征学习作用不大 。而不是识别任务 ,尤其适合生成高分辨率 、然后评估它们在识别任务上的表征质量 。使用这些面向生成的模型,
在当今的表征学习社区 ,可以说 DAE 最成功的变体都是基于「掩码噪声(masking noise)」,这些基于掩码的变体依然与移除加性噪声(如高斯噪声)大不相同:尽管掩码 token 会明确指定未知和已知内容,DDM 的生成能力不断下降,类似照片的仿真实图像。