【独家焦点】图像生成半壁江山被物理学拿下了：扩散模型受热力学启发

来源：量子位　2023-01-15 06:33:33

丰色萧箫发自凹非寺
量子位 | 公众号 QbitAI

现在，图像生成领域的半壁江山已经被物理学拿下了。

(相关资料图)

火出圈的DALL·E 2、Imagen和Stable Diffusion，它们共同基于的扩散模型——

都是受到物理 热力学 的启发诞生的。

不仅如此，来自MIT、收录于NeurIPS 2022的一种比扩散模型效果还要好、速度还要快的新生成模型，则启发于 电动力学 。

如此攻势，让人不得不感叹：

留给图像生成的物理模型已经不多了？（手动狗头）

热力学如何启发扩散模型？

雏形：从一滴墨水得到启发

事实上，扩散模型并非从一开始就“崭露头角”。

很长一段时间里，图像生成领域的王者都非GAN莫属，即便期间不少新模型提出，它的生成效果仍然吊打其他一众模型。

初版扩散模型也是在这个背景下诞生。

就在GAN论文发布的后一年，斯坦福大学博士后Jascha Sohl-Dickstein基于GAN“没法学习完整概率分布”的缺陷，想到了一个idea。

对 非平衡热力学 有钻研的他，思考为何不能将物理和图像生成结合起来？

非平衡热力学是热力学的一个分支，专门研究某些不处于热力学平衡中的物理系统。

典型例子是一滴会在水中扩散的墨水。

在扩散之前，这滴墨水会是在水中的某个地方形成一个大斑点，但如果想模拟墨水开始扩散前的初始状态概率分布就会非常困难，因为这个分布很复杂、导致很难采样。

但随着墨水扩散到水中、水逐渐变成淡蓝色，墨水分子将分布得更简单更均匀，我们就可以很轻松地用数学公式来描述其中的概率。

这时候，非平衡热力学就上场了，它能将墨水扩散过程中每一步的概率分布都描述出来：

由于扩散过程的每一步都可逆，所以只要“步子”足够小，就可以从简单的分布再推断出最初复杂的分布来。

△就像是将这个过程倒放

Jascha Sohl-Dickstein就是受这个扩散原理的启发，创建了“扩散模型”，具体分为两步。

首先，通过某种算法将复杂图像转化为简单的噪声。

这一过程就类似于一滴墨水扩散到水全部变蓝，然后再逆转这一过程，将噪声转化为新图像。

具体来说，当系统拿到一张训练图像，这张图像的百万像素中的每一个点都有相应的值，根据这些值就能将像素转变为百万维空间中的一个点。

随后，用算法在每个时间步长中向每个像素点添加一些噪声，相当于墨水的每一步扩散，这样每个像素的值与其原始图像中的值之间的关系就会越来越小，直到看起来更像是一个简单的噪声分布。

接下来，对数据集中的所有图像执行这一操作，百万维空间中一开始由各个点组成的复杂分布（无法轻易描述和采样），就会变成围绕原点组成的简单正态分布。

Jascha Sohl-Dickstein解释道：

这个非常缓慢的“前向”转换过程就好比将数据分布变成了一个巨大的“噪音球”，提供了一个可以轻松采样的分布。

然后，再用这些被算法转换的图像，训练得到最终的扩散模型。

具体来说，就是喂给神经网络从前向转换过程中获得的噪声图像，训练它预测之前一步得到的噪声较小的图像，在这期间不断调整参数、改善模型，最终，它就可以将噪声图像输出成我们想要的图像。这样训练好的神经网络，无需学习原始图像，就可以直接采样生成全新的图像。

2015年，Sohl Dickstein将这个扩散模型的雏形进行了发表。

遗憾的是，尽管它能够对整个分布进行采样，也不会只吐出图像数据集的“子集”，但能力还远远落于GAN——既表现在生成质量上，也表现在生成速度上。

改进：造就DALL·E2、Stable Diffusio等爆火模型

最终，是两位博士生的相继改变，造就了最终的“现代版”扩散模型。

首先是2019年，还在斯坦福大学读博士的Yang Song，和他的导师在 完全不知道 Sohl Dickstein成果的情况下，想出了一种类似的新方法。

相比Sohl Dickstein估计数据（即高维表面）的概率分布的做法，Yang Song估计的是分布的梯度（即高维表面的斜率）。

而通过先用不断增加的噪声水平干扰训练集中的每个图像，然后再让神经网络使用分布梯度预测原始图像，可以非常有效地去噪，最终生成质量很高的图像。

不过，这种方法的采样速度非常慢。

好在很快，2020年，UC伯克利的Jonathan Ho看到了这两项研究，意识到后者的思路可以用来重新设计和改进Sohl Dickstein最开始的那版雏形。

于是，就有了后来大名鼎鼎的DDPM （Denoising Diffusion Probabilistic Models） ——它在所有的任务中，要么打平、要么超过所有其他生成模型，包括统治了该领域多年的GAN。

至此，一个最初启发于物理学原理的机器学习模型，几经周转，最终掀起了AIGC领域的热潮——

我们现在看到的DALL·E2、Stable Diffusio、SD和Imagen……都是基于DDPM这一扩散模型改进而来。

MIT新电动力学图像生成模型

现在，又是“拜物理学所赐”，扩散模型也迎来了新的挑战者。

基于电动力学的启发，来自MIT的研究人员提出了一种新的“泊松流”生成模型PFGM （“Poisson Flow” Generative Models）。

具体来说，这个生成模型将数据看成空间中新增z=0平面上的电荷，电荷产生了空间中的电场。

其中，电荷产生的电场线对应数据采样过程，电场线的方向即空间中泊松方程的解的梯度。

代表数据的电荷沿着产生的电场线向外移动，最终会形成一个半球面，并在球面半径足够大时，电荷在半球面上均匀分布。

与扩散模型中每一步概率分布都是可逆的一样，电场线也是可逆的。

因此，可以利用这种效果训练模型，让它学会通过均匀分布在半球面上的数据，反过来生成z=0平面上的数据。例如下图这个例子，数据分布一开始呈爱心状，但当数据最终移动到半径足够大的半球面上时，它们会呈现出均匀分布状态：

对应到图像生成过程中也一样，z=0平面上的数据分布，是我们希望生成的图像。

而生成模型要做的，则是通过半球面上均匀分布的数据，来反向推出希望生成的图像：

在CIFAR-10数据集上的评估中，PFGM是在一众类似思路模型中表现最好的，超过了扩散模型。

而且，PFGM在与扩散模型生成质量差不多的同时，速度要快上10~20倍，在速度和生成质量上取得了更好的“兼顾”。

下图是PFGM基于不同数据集训练后生成图片的过程，效果确实也是很能打了：

猜猜下一个挑战图像生成领域的物理模型会是什么？

参考链接： [1]https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/ [2]https://arxiv.org/abs/2209.11178 [3]https://arxiv.org/pdf/1503.03585.pdf

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

关键词：概率分布均匀分布非平衡热力学

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

要在新材料行业的花园里开数智之花，需要怎2023-05-25
iQOO 11S手机曝光，搭载骁龙8Gen2增强版本2023-05-25
usmile笑容加发布新品，口腔清洁进入可视化2023-05-25
内行看门道！618活动拉开帷幕，小米13系列2023-05-25
阿水的GPT客户端，上线啦！2023-05-25
当前讯息：瑞文哪个皮肤手感好点_瑞文哪个2023-05-25
今日关注：快讯：美能能源涨停报于17.61元2023-05-25
晶科能源N型技术高价值市场分析研讨会：未2023-05-25
遇见造物主偷袭大师怎么解锁2023-05-25
遇见造物主好戏开场怎么解锁|今日热搜2023-05-25
遇见造物主死亡丰碑怎么解锁-速看料2023-05-25
遇见造物主知识就是力量怎么解锁2023-05-25
七项重点工程助力江苏电网平稳度夏2023-05-25
天天最资讯丨“中高考服务季”进行中2023-05-25
环球今热点：哈德森开启新赛季备战！下月初2023-05-25
热门看点：哲库事件后，华安张江光大REIT下2023-05-25
13年快男十强（快男十强）_当前最新2023-05-25
【世界时快讯】不爱做家务的来，洗地吸尘原2023-05-25
天天时讯：打造超Pro级硬件规格！小米Civi32023-05-25
新消息丨AI前沿速报0525：Windows11将搭载AI助手2023-05-25
vivo旗舰直降1100元当前关注2023-05-25
一加员工：OV64B一般是千元机的主摄！OPPO2023-05-25
环球动态:大容量还不限速上海移动云盘助2023-05-25
再开行业先河，欠薪两月的爱驰汽车倡导员工2023-05-25
出轨成性，死拖张嘉倪，换着法子骂网友，买2023-05-25
今日快看!西藏日喀则：金融活水“贷”动文2023-05-25
雪居之地哪些首领具有扫射和狂热的资质2023-05-25
塞尔达传说王国之泪为海布拉带来和平挑战视2023-05-25
塞尔达传说王国之泪科尔天的下落挑战视频攻2023-05-25
塞尔达传说王国之泪白鸟所指引的洞窟任务在2023-05-25

【独家焦点】图像生成半壁江山被物理学拿下了：扩散模型受热力学启发

热力学如何启发扩散模型？

雏形：从一滴墨水得到启发

改进：造就DALL·E2、Stable Diffusio等爆火模型

MIT新电动力学图像生成模型

新闻排行

精彩推荐

综合信息