Stable Diffusion

✍ dations ◷ 2025-12-09 11:16:27 #Stable Diffusion

Stable Diffusion是2022年发布的深度学习文生图模型（英语）。它主要用于根据文本的描述产生详细图像，尽管它也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词（英语）指导下产生图生图的翻译。

它是一种潜在（粤语）扩散模型（英语），由慕尼黑大学的CompVis研究团体开发的各种生成性人工神經网络。它是由初创公司StabilityAI，CompVis与Runway合作开发的，并得到EleutherAI和LAION（英语）的支持。截至2022年10月，StabilityAI筹集了1.01亿美元的资金。

Stable Diffusion的代码和模型权重已公开发布，可以在大多数配备有适度GPU的电脑硬件上运行。而以前的专有文生图模型（如DALL-E和Midjourney（英语））只能通过云计算服务访问。

Stable Diffusion是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model; LDM）。扩散模型是在2015年推出的，其目的是消除对训练图像的连续应用高斯噪声，可以将其视为一系列去噪自编码器。Stable Diffusion由3个部分组成：变异自动编码器（英语）（VAE），U-Net（英语）和一个文本编码器。与其学习去噪图像数据（在“像素空间”中），而是训练VAE将图像转换为低维潜在空间（英语）。添加和去除高斯噪声的过程被应用于这个潜在表示，然后将最终的去噪输出解码到像素空间中。在前向扩散过程中，高斯噪声被迭代地应用于压缩的潜在表征。每个去噪步骤都由一个包含残差神经网络（粤语）（ResNet）中坚的U-Net架构完成，通过从前向扩散往反方向去噪而获得潜在表征。最后，VAE解码器通过将表征转换回像素空间来生成输出图像。研究人员指出，降低训练和生成的计算要求是LDM的一个优势。

去噪步骤可以以文本串、图像或一些其他数据为条件。调节数据的编码通过交叉注意机制（cross-attention mechanism）暴露给去噪U-Net的架构。为了对文本进行调节，一个预训练的固定CLIP ViT-L/14文本编码器被用来将提示词转化为嵌入空间。

Stable Diffusion模型支持通过使用提示词来产生新的图像，描述要包含或省略的元素，以及重新绘制现有的图像，其中包含提示词中描述的新元素（该过程通常被称为“指导性图像合成”（guided image synthesis））通过使用模型的扩散去噪机制（diffusion-denoising mechanism）。此外，该模型还允许通过提示词在现有的图中进内联补绘制和外补绘制来部分更改，当与支持这种功能的用户界面使用时，其中存在许多不同的开源软件。

Stable Diffusion建议在10GB以上的VRAM下运行，但是VRAM较少的用户可以选择以float16的精度加载权重，而不是默认的float32，以降低VRAM使用率。

Stable Diffusion中的文生图采样脚本，称为"txt2img"，接受一个提示词，以及包括采样器（sampling type），图像尺寸，和随机种子（粤语）的各种选项参数，并根据模型对提示的解释生成一个图像文件。生成的图像带有不可见的数字水印标签，以允许用户识别由Stable Diffusion生成的图像，尽管如果图像被调整大小或旋转，该水印将失去其有效性。 Stable Diffusion模型是在由512×512分辨率图像组成的数据集上训练出来的，这意味着txt2img生成图像的最佳配置也是以512×512的分辨率生成的，偏离这个大小会导致生成输出质量差。 Stable Diffusion 2.0版本后来引入了以768×768分辨率图像生成的能力。

每一个txt2img的生成过程都会涉及到一个影响到生成图像的随机种子；用户可以选择随机化种子以探索不同生成结果，或者使用相同的种子来获得与之前生成的图像相同的结果。用户还可以调整采样迭代步数（inference steps）；较高的值需要较长的运行时间，但较小的值可能会导致视觉缺陷。另一个可配置的选项，即无分类指导比例值，允许用户调整提示词的相关性（classifier-free guidance scale value）；更具实验性或创造性的用例可以选择较低的值，而旨在获得更具体输出的用例可以使用较高的值。

反向提示词（negative prompt）是包含在Stable Diffusion的一些用户界面软件中的一个功能（包括StabilityAI自己的“Dreamstudio”云端软件即服务模式订阅制服务），它允许用户指定模型在图像生成过程中应该避免的提示，适用于由于用户提供的普通提示词，或者由于模型最初的训练，造成图像输出中出现不良的图像特征，例如畸形手脚。与使用强调符（emphasis marker）相比，使用反向提示词在降低生成不良的图像的频率方面具有高度统计显著的效果；强调符是另一种为提示的部分增加权重的方法，被一些Stable Diffusion的开源实现所利用，在关键词中加入括号以增加或减少强调。

Stable Diffusion包括另一个取样脚本，称为"img2img"，它接受一个提示词、现有图像的文件路径和0.0到1.0之间的去噪强度，并在原始图像的基础上产生一个新的图像，该图像也具有提示词中提供的元素；去噪强度表示添加到输出图像的噪声量，值越大，图像变化越多，但在语义上可能与提供的提示不一致。图像升频是img2img的一个潜在用例，除此之外。

2022年11月24日发布的Stable Diffusion 2.0版本包含一个深度引导模型，称为"depth2img"，该模型推断所提供的输入图像的深度（英语），并根据提示词和深度信息生成新图像，在新图像中保持原始图像的连贯性和深度。

Stable Diffusion模型的许多不同用户界面软件提供了通过img2img进行图生图的其他用例。内补绘制（inpainting）由用户提供的蒙版（英语）描绘的现有图像的一部分，根据所提供的提示词，用新生成的内容填充蒙版的空间。随着Stable Diffusion 2.0版本的发布，StabilityAI同时创建了一个专门针对内补绘制用例的专用模型。相反，外补绘制（outpainting）将图像扩展到其原始尺寸之外，用根据所提供的提示词生成的内容来填补以前的空白空间。

与DALL-E等模型不同，Stable Diffusion提供其源代码以及预训练的权重。其许可证禁止某些使用案例，包括犯罪，诽谤，骚扰，人肉搜索，“剥削…未成年人”，提供医疗建议，自动创建法律义务，伪造法律证据，以及“基于…社会行为或…个人或人格特征…或受法律保护的特征或类别而歧视或伤害个人或群体”。用户拥有其生成的图像的权利，并可自由地将其用于商业用途。

Stable Diffusion是在LAION-5B的图片和标题对上训练的，LAION-5B是一个公开的数据集，源自从网络上抓取的Common Crawl（英语）数据。该数据集由LAION（英语）创建，LAION是一家德国非营利组织，接受StabilityAI的资助。该模型最初是在LAION-5B的一个大子集上训练的，最后几轮训练是在“LAION-Aesthetics v2 5+”上进行的，这是一个由6亿张带标题的图片组成的子集，人工智能预测人类在被要求对这些图片的喜欢程度打分时至少会给5/10打分。这个最终的子集也排除了低分辨率的图像和被人工智能识别为带有水印的图像。对该模型的训练数据进行的第三方分析发现，在从所使用的原始更广泛的数据集中抽取的1200万张图片的较小子集中，大约47%的图像样本量来自100个不同的网站，其中Pinterest占8.5%子集，其次是WordPress，Blogspot，Flickr，DeviantArt和维基共享资源等网站。

该模型是在亚马逊云计算服务上使用256个NVIDIA A100 GPU训练，共花费15万个GPU小时，成本为60万美元。

为了纠正模型初始训练的局限性，终端用户可以选择实施额外的训练，以微调生成输出以匹配更具体的使用情况。有三种方法可以让用户对Stable Diffusion模型权重存档点进行微调：

由于艺术风格和构图不受著作权保护，因此通常认为使用Stable Diffusion生成艺术品图像的用户不应被视为侵犯视觉相似作品的著作权，但是如果生成的图像中所描述的真人被使用，他们仍然受到人格权的保护，而且诸如可识别的品牌标识等知识产权仍然受到著作权保护。尽管如此，艺术家们表示担心Stable Diffusion等模型的广泛使用最终可能导致人类艺术家以及摄影师、模特、电影摄影师和演员逐渐失去与基于人工智能的竞争对手的商业可行性。

与其他公司的类似机器学习图像合成产品相比，Stable Diffusion在用户可能产生的内容类型方面明显更加宽容，例如暴力或性暴露的图像。

StabilityAI的首席执行官Emad Mostaque解决了该模型可能被用于滥用目的的担忧，他解释说：“人们有责任了解他们在操作这项技术时是否符合道德、道德和法律”，将Stable Diffusion的能力交到公众手中会使该技术在整体上提供净收益，即使有潜在的负面后果。此外，Mostaque认为，Stable Diffusion的开放可用性背后的意图是结束大公司对此类技术的控制和主导地位，他们之前只开发了封闭的人工智能系统进行图像合成。

相关

细胞沟通细胞信息传递（英语：cell signaling）是一个主管细胞基本活动并协调细胞行为的复杂沟通系统。细胞对周遭微环境进行感知与正确回应的能力是其发展、修复组织、免疫以及体内正常动
蝇虎科570属，详见内文蝇虎科或跳蛛科（学名：Salticidae），又名“虩”（读音同“隙”），是蜘蛛目的一科，也是蝇虎总科的唯一科。根据ITIS引用的2011年数据，本科之下有570个属。部分动物学家尝试将
林克 (1923年)林克（1923年5月－2011年12月27日），又名袁溥，男，江苏如皋人，中华人民共和国政治人物，原南通市市长、南京医学院党委书记、南京工学院革命委员会主任、清华大学党委书记、复旦大学党委
亚沙尔·凯末尔 ("Ballads"; debut)Prix du Meilleur Livre Etranger 1979 Prix mondial Cino Del Duca 1982 法国荣誉军团勋章司令官勋位 198
姚体备姚体备（1816年－1862年），字诚叔，号万子，山东钜野县人。清朝官员。姚体备家族钜野姚氏是当地名门望族，科名很盛。道光二十七年（1847年）丁未科进士。官江西知府。咸丰十年（1860年），入安徽曾
小小的愿望《小小的愿望》（英语：），是一部于2019年上映的中国喜剧电影。改编自2016年韩国电影《伟大的愿望》。由彭昱畅、王大陆、魏大勋领衔主演，2019年9月12日于中国大陆上映。
张寿臣张寿臣（1899年1月29日－1970年7月9日），相声演员，寿字辈门长，同时亦为评书演员。小名双儿，艺名张豫华，天主教徒，圣名保禄。是相声界第五代传人。祖籍河北省深县。生于北京西郊民巷小四
李世忠 (清朝)李世忠（1825年－1881年），原名李昭寿，字松崖，男，河南省固始县人，清朝军事人物。李昭寿是地痞流氓出身，长年被关押在商城、固始、霍丘等县监狱。后参加捻军。咸丰五年（1855年）春，清将何桂珍
坂上苅田麻吕坂上苅田麻吕，（727年-786年）奈良时代公卿武人，官职从三位左京大夫。他祖先是阿知使主，父坂上犬养，他曾参与平定藤原仲麻吕之乱，他儿子是第二任征夷大将军坂上田村麻吕。
刘美贤刘美贤（英语：Alysa Liu，2005年8月8日－），美国花样滑冰运动员。她是全美锦标赛史上最年轻的女子单人滑冠军。刘美贤出生于加州克洛维斯，在旧金山东湾的里士满长大。其父刘俊（Arthur Li