扩散模型

✍ dations ◷ 2025-07-08 18:49:04 #扩散模型

机器学习中,扩散模型或扩散概率模型是一类潜变量模型,是用变分估计训练的马尔可夫链。扩散模型的目标是通过对数据点在潜空间中的扩散方式进行建模,来学习数据集的潜结构。计算机视觉中,这意味着通过学习逆扩散过程训练神经网络,使其能对叠加了高斯噪声的图像进行去噪。计算机视觉中使用通用扩散模型框架的3个例子是去噪扩散概率模型、噪声条件得分网络和随机微分方程。

扩散模型是在2015年提出的,其动机来自非平衡态热力学。

扩散模型可以应用于各种任务,如图像去噪、图像修复、超分辨率成像、图像生成等等。例如,一个图像生成模型,经过对自然图像的扩散过程的反转训练之后,可从一张完全随机的噪声图像开始逐步生成新的自然图像。比较近的例子有2022年4月13日OpenAI公布的文生图模型DALL-E 2。它将扩散模型用于模型的先验解释器和产生最终图像的解码器。

考虑图像生成问题。令 x {displaystyle x} 代表一张图,令 p ( x ) {displaystyle p(x)} 为在所有可能图像上的几率分布。若有 p ( x ) {displaystyle p(x)} 本身,便可以肯定地说给定的一张图的几率有多大。但这在一般情况下是难以解决的。

大多数时候,我们并不想知道某个图像的绝对几率,相反,我们通常只想知道某个图像与它的周围相比,几率有多大:一张猫的图像与它的小变体相比,几率哪个大?如果图像里有一根、两根或三根胡须,或者加入了一些高斯噪声,几率会更大吗?

因此,我们实际上对 p ( x ) {displaystyle p(x)} 本身不感兴趣,而对 x ln p ( x ) {displaystyle nabla _{x}ln p(x)} 感兴趣。这有两个效果:

令分数函数为 s ( x ) := x ln p ( x ) {displaystyle s(x):=nabla _{x}ln p(x)} ,然后考虑我们能对 s ( x ) {displaystyle s(x)} 做什么。

实际上, s ( x ) {displaystyle s(x)} 允许我们用随机梯度朗之万动力学从 p ( x ) {displaystyle p(x)} 中取样,这本质上是马尔可夫链蒙特卡洛的无限小版本。

分数函数可通过加噪-去噪学习。

假设我们希望不是从整个图像的分布中取样,而是以图像描述为条件取样。我们不想从一般的图像中取样,而是从符合描述“红眼睛的黑猫”的图片中取样。一般来说,我们想从分布 p ( x | y ) {displaystyle p(x|y)} 中取样,其中 x {displaystyle x} 的范围是图像, y {displaystyle y} 的范围是图像的类别(对y而言,“红眼黑猫”的描述过于精细,“猫”又过于模糊)。

从噪声信道模型的角度来看,我们可以将这一过程理解如下:为生成可描述为 y {displaystyle y} 的图像 x {displaystyle x} ,我们设想请求者脑海中真有一张图像 x {displaystyle x} ,但它经过多次加噪,出来的是毫无意义可言的乱码,也就是 y {displaystyle y} 。这样一来图像生成只不过是推断出请求者心中的 x {displaystyle x} 是什么。

换句话说,有条件的图像生成只是“从文本语言翻译成图像语言”。之后,像在噪声信道模型中一样,我们可以用贝叶斯定理得到

SGLD使用

分类器引导的扩散模型会从 p ( x | y ) {displaystyle p(x|y)} 中取样,它集中在最大后验概率 arg max x p ( x | y ) {displaystyle arg max _{x}p(x|y)} 周围。如果我们想迫使模型向最大似然估计 arg max x p ( y | x ) {displaystyle arg max _{x}p(y|x)} 的方向移动,可以用

这可以简单地通过SGLD实现,即

如果我们没有分类器 p ( y | x ) {displaystyle p(y|x)} ,我们仍可以从图像模型本身提取一个:

这是GLIDE、DALL-E和Google Imagen等系统的重要组成部分。

相关

  • 放线菌素D放线菌素D(英语:Actinomycin D或Dactinomycin,简称放线菌素,又名更生霉素)是从土壤中链霉菌属的细菌分离出来的放线菌素类多肽类抗生素中最重要的一种。 作为早期的化疗药物之一,
  • 磁普兰特数磁普兰特数(Prm)是在磁流体力学中的无量纲,大约是动量扩散率(黏度)及磁扩散率的比例,定义为:其中在太阳对流层中磁普兰特数约为10−2,在行星内部及实际室的液态金属发电机中,磁普兰特
  • 罗伯特·肯尼克特小罗伯特·查尔斯·肯尼克特,FRS(英语:Robert Charles Kennicutt, Jr.,1951年9月4日-),美国天文学家,剑桥大学天文研究所Plumian天文学教授 。肯尼克特曾担任天体物理学杂志的总编辑
  • 幻方常数幻方常数或幻方和是指一个幻方中任一行、任一列或对角线的和。例如以下的三阶幻方的幻方常数是15。“幻方常数”或“幻方和”一词也可以延伸到幻星或幻立方(英语:Magic cube)中
  • 小野仁小野 仁(1976年8月23日-)是一名日本男子棒球运动员。他在1996年亚特兰大夏季奥林匹克运动会中,参加了男子棒球比赛并为日本队获得男子团体银牌。
  • 学生事务学生事务(英语:student affairs, student support, student service,简称学务)为各国高等教育机构中专司学生服务与支持的部门或处室,以促进学生成长与发展。在该领域工作的人,常
  • 多米尼克·阿曼托多米尼克·阿曼托(英语:Dominic Armato,1976年11月18日-)是美国芝加哥市出身的电子游戏、动画男性配音员。起初在担任配音员时,阿曼托在一些动画中担任简单的配角职务。而阿曼托于年轻时便热衷LucasArts所推出的电子冒险游戏,尤其是《猴岛小英雄》系列作品。在1997年LucasArts发行《猴岛小英雄》第三作《猴岛的诅咒》前几个月,阿曼托曾向友人开玩笑说他会是《猴岛的诅咒》中游戏主角“盖伯拉许·崔普伍德”的配音人选。随后阿曼托则确实如他所言;成为盖伯拉许的配音员。而往后《猴岛小英雄》作
  • 仁化振坤宫坐标:.mw-parser-output .geo-default,.mw-parser-output .geo-dms,.mw-parser-output .geo-dec{display:inline}.mw-parser-output .geo-nondefault,.mw-parser-output .geo-multi-punct{display:none}.mw-parser-output .longitude,.mw-parser-output .latitude{white-space:n
  • 尼科洛·巴雷拉 尼科洛·巴雷拉(意大利语:Nicolò Barella;1997年2月7日-),意大利足球运动员,现效力意甲俱乐部国际米兰,意大利国家足球队成员,司职中场。1997年出生的巴雷拉九岁的时候就已经加入了卡利亚里的青训体系,并在18岁便完成了在一线队的首秀。随后便被租借到科莫,租借后返回球队迅速占据了队内的一个首发位置。他在17-18赛季打进六粒进球。2019年,国际米兰以租借一年+2800万买断巴雷拉。 意大利杯对阵佛罗伦萨的比赛中,加时赛末尾阶段正是巴雷拉的45度斜传助攻卢卡库头球破门, 在联赛
  • 西氏秘鳉西氏秘鳉为辐鳍鱼纲鲤齿目鲤齿亚目鲤齿鳉科的其中一种,被IUCN列为极危保育类动物,分布于亚洲约旦Azraq Oasis流域,体长可达5公分,栖息在水浅、植被生长、岩石底质或泥底质水域,以昆虫幼虫、甲壳类幼生为食,繁殖期在春季,可做为观赏鱼。 维基物种上的相关信息:西氏秘鳉