CLIP+增强版GLIDE密序。
译者 |Ryan OConnor
校对丨王玥
撰稿 | 陈彩娴
OpenAI的数学模型DALL-E 2于本月底正式发布,但一现身,便在影像聚合和影像处理应用领域扬起了捷伊龙卷风。
只须要给到寥寥无几几句话文档提示信息,DALL-E 2就能按文档命令聚合崭新影像,即使能将毫不相干的球体以貌似科学合理的语法形式女团在一同。
比如说使用者输出提示信息一杯汤是另两个魔界的出口处后,DALL-E 2便聚合了下列的梦幻相片。
DALL-E 2不但能按使用者命令聚合没错梦幻,却又看著极为科学合理未明觉厉的相片。做为这款强悍的数学模型,现阶段他们未知DALL-E 2还能:
聚合某一古典风格的影像,好似出自于此种古典风格的画家之手,极为原汁原味!
保持一张相片显著特征的情况下,聚合该相片的多种变体,每一种看起来都极为自然;
修改现有影像而不露一点痕迹,天衣无缝。
感觉有了DALL-E 2,表演艺术家都能下岗了。
DALL-E 2现阶段曝光的功能令人瞠目结舌,不禁激起了众多AI爱好者的讨论,这样两个强悍数学模型,它的组织工作基本原理到底是什么?!
1
组织工作基本原理:简单粗暴
"一只在吹喷火喇叭的柯基——DALL-E 2相片聚合流程解析 图源:https://arxiv.org/abs/2204.06125扬州电液推杆厂家
针对相片聚合这一功能来说,DALL-E 2的组织工作基本原理剖析出来貌似并不复杂:
首先,将文档提示信息输出文档编码器,该训练过的编码器便将文档提示信息映射到表示空间。
接下来,称为先验的数学模型将文档编码映射到相应的影像编码,影像编码捕获文档编码中包含的提示信息的语法信息。
最后,影像解码数学模型随机聚合一幅从视觉上表现该语法信息的影像。
2
组织工作细节:处处皆奥妙
可是以上步骤说起来简单,分开看来却是每一步都有很大难度,让他们来模拟DALL-E 2的组织工作流程,看看究竟每一步都是怎么走通的。
他们的第一步是先看看DALL-E 2是怎么学习把文档和视觉影像联系起来的。
第一步 - 把文档和视觉影像联系起来
输出泰迪熊在时代广场滑滑板的文字提示信息后,DALL-E 2聚合了下图:
图源:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/
DALL-E 2是怎么知道泰迪熊这个文档概念在视觉空间里是什么样子的?
其实DALL-E 2中的文档语法和与其相对的视觉相片之间的联系,是由另两个OpenAI数学模型CLIP(C扬州电液推杆厂家ontrastiveLanguage-ImagePre-training)学习的。
CLIP接受过数亿张相片及其相关文字的训练,学习到了给定文档片段与影像的关联。
也就是说,CLIP并不是试图预测给定影像的对应文字说明,而是只学习任何给定文档与影像之间的关联。CLIP做的是对比性而非预测性的组织工作。
整个DALL-E 2数学模型依赖于CLIP从自然语言学习语法的能力,所以让他们看看如何训练CLIP来理解其内部组织工作。
CLIP训练
训练CLIP的基本原则非常简单:
首先,所有影像及其相关文字说明都通过各自的编码器,将所有对象映射到m维空间。
然后,计算每个(影像,文档)对的cos值相似度。
训练目标是使N对正确编码的影像/标题对之间的cos值相似度最大化,同时使N2 - N对错误编码的影像/标题对之间的cos值相似度最小化。
训练过程如下图所示:
CLIP对DALL-E 2的意义
CLIP几乎就是DALL-E 2的心脏,因为CLIP才是那个把自然语言片段与视觉概念在语法上进行关联的存在,这对于聚合与文档对应的影像来说至关重要。
第二步 - 从视觉语法聚合影像
训练结束后,CLIP数学模型被冻结,DALL-E 2进入下两个任务——学习怎么把CLIP刚刚学习到的影像编码映射反转。CLIP学习了两个表示空间,在这个表示空间当中很容易确定文档编码和视觉编码的相关性, 他们须要学会利用表示空间来完成反转影像编码映射这个任务。扬州电液推杆厂家
而OpenAI使用了它之前的另两个数学模型GLIDE的增强版本来执行影像聚合。GLIDE数学模型学习反转影像编码过程,以便随机解码CLIP影像嵌入。
一只吹喷火喇叭的柯基一图经过CLIP的相片编码器,GLIDE利用这种编码聚合保持原影像显著特征的新影像。图源:https://arxiv.org/abs/2204.06125
如上图所示,须要注意的是,他们的目标不是构建两个自编码器并在给定的嵌入条件下精确地重建影像,而是在给定的嵌入条件下聚合两个保持原始影像显著特征的影像。为了进行影像聚合,GLIDE使用了扩散数学模型(Diffusion Model)。
何为扩散数学模型?
扩散数学模型是一项受热力学启发的发明,近年来越来越受到学界欢迎。扩散数学模型学习通过逆转两个逐渐噪声过程来聚合数据。如下图所示,噪声处理过程被视为两个参数化的马尔可夫链,它逐渐向影像添加噪声使其被破坏,最终(渐近地)导致纯高斯噪声。扩散数学模型学习沿着这条链向后走去,在一系列步骤中逐渐去除噪声,以逆转这一过程。扬州电液推杆厂家
如果训练后将扩散数学模型切成两半,则能通过随机采样高斯噪声来聚合影像,然后对其去噪,聚合逼真的影像。大家可能会意识到这种技术很容易令人联想到用自编码器聚合数据,实际上扩散数学模型和自编码器确实是相关的。
GLIDE的训练
虽然GLIDE不是第两个扩散数学模型,但其重要贡献在于对数学模型进行了修改,使其能够聚合有文档条件的影像。
GLIDE扩展了扩散数学模型的核心概念,通过增加额外的文档信息来增强训练过程,最终聚合文档条件影像。让他们来看看GLIDE的训练流程:
下面是一些使用GLIDE聚合的影像示例。译者指出,就照片真实感和文档相似度两方面而言,GLIDE的表现优于DALL-E(1)。
DALL-E 2使用了一种改进的GLIDE数学模型,这种数学模型以两种形式使用投影的CLIP文档嵌入。第一种方法是将它们添加到GLIDE现有的时间步嵌入中,第二种方法是创建四个额外的上下文标记,这些标记连接到GLIDE文档编码器的输出序列。
GLIDE对于DALL-E 2的意义
GLIDE对于DALL-E 2亦很重要,因为GLIDE能够将自己按照文档聚合逼真影像的功能移植到DALL-E 2上去,而无需在表示空间中设置影像编码。因此,DALL-E 2使用的增强版本GLIDE学习的是根据CLIP影像编码聚合语法一致的影像。扬州电液推杆厂家
第三步 - 从文档语法到相应的视觉语法的映射
到了这步,他们如何将文字提示信息中的文档条件信息注入到影像聚合过程中?
回想一下,除了影像编码器,CLIP还学习了文档编码器。DALL-E 2使用了另一种数学模型,译者称之为先验数学模型,以便从影像标题的文档编码映射到对应影像的影像编码。DALL-E 2的译者用自回归数学模型和扩散数学模型进行了实验,但最终发现它们的性能相差无几。考虑到扩散数学模型的计算效率更高,因此选择扩散数学模型做为 DALL-E 2的先验。
先验训练
DALL-E 2中扩散先验的运行顺序是:
标记化的文档;
这些标记的CLIP文档编码;
扩散时间步的编码;
噪声影像通过CLIP影像编码器;
Transformer输出的最终编码用于预测无噪声CLIP影像编码。
第四步 - 万事俱备
现在,他们已经拥有了DALL-E 2的所有零件,万事俱备,只须要将它们女团在一同就能获得他们想要的结果——聚合与文档命令相对应的影像:
首先,CLIP文档编码器将影像描述映射到表示空间;
然后扩散先验从CLIP文档编码映射到相应的CLIP影像编码;扬州电液推杆厂家
最后,增强版的GLIDE聚合数学模型通过反向扩散从表示空间映射到影像空间,聚合众多可能影像中的两个。
以上就是DALL-E 2的组织工作基本原理啦~
希望大家能注意到DALL-E 2开发的3个关键要点:
DALL-E 2体现了扩散数学模型在深度学习中的能力,DALL-E 2中的先验子数学模型和影像聚合子数学模型都是基于扩散数学模型的。虽然扩散数学模型只是在过去几年才流行起来,但其已经证明了自己的价值,他们能期待在未来的各种研究中看到更多的扩散数学模型~
第二点是他们应看到使用自然语言做为一种手段来训练最先进的深度学习数学模型的必要性与强悍力量。DALL-E 2的强劲功能究其根本还是来自于互联网上提供的绝对海量的自然语言&影像数据对。使用这些数据不但消除了人工标记数据集这一费力的过程所带来的发展瓶颈;这些数据的嘈杂、未经整理的性质也更加反映出深度学习数学模型必须对真实世界的数据具有鲁棒性。
最后,DALL-E 2重申了Transformer做为基于网络规模数据集训练的数学模型中的最高地位,因为Transformer的并行性令人印象极为深刻。
联系电话
微信扫一扫