文本到图像生成模型

✍ dations ◷ 2025-04-12 08:03:26 #文本到图像生成模型

文本到图像生成模型是一种机器学习模型，一般以自然语言描述为输入，输出与该描述相匹配的图像。这种模型的开发始于2010年代中期，伴随深度神经网络技术的发展而进步。2022年，最先进的文生图模型，如OpenAI的DALL-E 2、谷歌大脑的Imagen和StabilityAI的Stable Diffusion开始接近真实照片和人类所绘艺术作品的质量。

文生图模型通常结合了一个语言模型，负责将输入的文本转化为机器描述，而图像生成模型则负责生成图像。最有效的模型通常是用从互联网上抓取的大量图像和文本数据训练出来的。

在深度学习兴起之前，搭建文生图模型的尝试仅限于通过排列现有的组件图像，如来自美工图案数据库的素材，形成类似于拼贴画的图像。

相反的任务，即给图像配文更具有可操作性，在第一个文生图模型出现之前，就已经出现了一些类似的模型。

第一个现代文生图模型是alignDRAW，由多伦多大学研究人员于2015年推出，扩展了之前的DRAW架构（其使用带有注意力机制的循环变分自动编码器）使其能以文本序列作为输入。 Images generated by alignDRAW生成的图像是模糊的，并不逼真，但该模型能归纳出训练数据中没有的物体（如红色校车）。并适当的处理新的提示，如“停车标识在蓝天上飞”，表明它并不仅仅是在“回放”训练集中的数据。

2016年，Reed、Akata、Yan等人首先试图将生成对抗网络用于文生图任务。通过用狭窄的、特定领域的数据集训练的模型，他们能够从文字说明中生成“视觉上可信的”物体，如从“an all black bird with a distinct thick, rounded bill（一只全黑的鸟。有明显的厚而圆的喙）”中生成“视觉上可信的”鸟和花。在更多样化的COCO数据集上训练的模型产生的图像“从远处看……令人鼓舞”，但在细节上缺乏一致性。后来的系统包括VQGAN+CLIP、XMC-GAN和GauGAN2。

最早引起公众广泛关注的文生图模型之一是OpenAI的DALL-E，它是一个公布于2021年1月的Transformer模型系统。2022年4月，又发布了能生成更复杂、更逼真图像的DALL-E 2，2022年8月又出现了公开发布的Stable Diffusion。

继其他文生图模型之后，由语言模型驱动的文生视频平台开始涌现，如Runway、Make-A-Video、Imagen Video、 MidjourneyPhenaki等，它们可以从文本和/或文/图描述生成视频。

文生图模型有各种不同架构。文本编码这一步可以用循环神经网络如长短期记忆（LSTM）网络实现，后来更流行的是Transformer模型。对于图像生成这一步，通常使用条件生成对抗网络，近年来扩散模型也很受欢迎。与其直接训练一个以文本为输入、以高分辨率图像为输出的模型，不如先训练一个模型来生成低分辨率图像，再用一个或多个辅助的深度学习模型来提升质量，填补更精细的细节。

文生图模型是在大型（文，图）对数据集的基础上训练的，通常是从互联网上抓取来的。谷歌大脑在2022年的Imagen模型中使用的大型语言模型仅用到了纯文本数据（其权重随后被冻结），并得到了积极的结果，这与以往的标准方法不同。

训练文生图模型西药一个与文字说明相互相匹配的图像数据集。常用于此目的的数据集是微软于2014年发布的COCO（Common Objects in Context，语境中的常见对象），其由约12.3万张描述各种物体的图片组成，每张图片都有5条说明，由人类标注。Oxford-120 Flowers和CUB-200 Birds是较小的数据集，各有约1万张图片，分别限于花和鸟。它们的主题范围比较窄，因此用它们训练领域内的高质量文生图模型难度较小。

评价文生图模型的质量十分具有挑战性，需要评估多种不同的属性。与任何生成性图像模型相同，所生成的图像最好比较真实（看起来像是来自训练集的有意义图像），且风格多样。文生图模型的一个具体要求是，生成的图像在语义上应与用于生成图像的文字说明相一致。这个一致性的度量与许多方案，有些是自动的，有些则基于人类的判断。

评估图像质量和多样性的常用算法指标是初始分数（Inception score，IS），它基于预训练的Inception v3图像分类模型应用于文生图模型生产的图像样本时，预测的标签分布。一个单一标签的可能性越高，分数就越高，这是基于鼓励“独特性”的理念做出的。另一个较为知名的指标是与其相关的FID分数，它根据预训练的图像分类模型的最后一层所提取的特征，对生成的图像和真实训练图像的分布进行比较。

纽约现代艺术博物馆的“思考机器:1959-1989,计算机时代的艺术与设计”（Thinking Machines: Art and Design in the Computer Age, 1959–1989）展览提供了AI在艺术、建筑和设计中的应用概况。展示AI用于生产艺术作品的展览有2016年谷歌赞助的旧金山灰色区域基金会的慈善活动和拍卖会，以及2017年于洛杉矶和法兰克福举办的“非人类：AI时代的艺术”（Unhuman: Art in the Age of AI），艺术家们在那里实验了DeepDream算法。2018年春，美国计算机协会专门出版了一期以计算机和艺术为主题的杂志。2018年6月，允许观众与AI互动的艺术作品“人与机器的二重奏”（Duet for Human and Machine）于Beall艺术+技术中心首演。奥地利Ars Electronica和维也纳应用艺术博物馆在2019年开设了关于AI的展览。Ars Electronica的2019年节日主题“盒子之外”（Out of the box）探讨了艺术在可持续社会转型中的作用。

2022年9月，一位专家得出结论：“AI艺术现在无处不在”，甚至专家也不知道它将意味着什么。一家新闻媒体确定“AI艺术蓬勃发展”，并报道了专业艺术家的版权和自动化问题，一家新闻媒体则调查了网络社区面对大量此种作品时的反应，也有人提出了对深伪技术的担忧。一部杂志强调了实现“新的艺术表现形式”的可能性，一篇社论指出，它可能被视为一种受欢迎的“人类能力的增强”。Vincent, James. Anyone can use this AI art generator — that's the risk. The Verge. 2022-09-15 .

这种增强的例子可能包括，使业余爱好者能扩大非商业的市场定位体裁（常见的是赛博朋克衍生体裁，如太阳庞克）。

包括AI艺术在内的合成媒体在2022年被描述为一个主要的技术驱动趋势，可能会在将来几年内影响商业。.

相关

黄　如黄如（1969年11月－），生于江苏南京，籍贯福建南安，中国微电子器件专家，北京大学教授，中国科学院院士。1969年生于江苏南京，籍贯福建南安，1991年毕业于东南大学电子工程系，1994年获得东南大
丘英二丘英二（1915年－2014年9月），台湾诗人。原名张良典。台南县人。台北医专毕业，行医为业。早在台南二中读高中时就开始以诗歌为主的文学创作，常向《台南新报》等报刊投寄诗稿。 1935
固山贝子固山贝子（满语：ᡤᡡᠰᠠᡳ ᠪᡝᡳ᠌ᠰᡝ，穆麟德：，太清：），简称贝子。固山即“旗”，贝子原为满语“贝勒”的复数，有王或诸侯之意。清建国后，成为宗室外藩封爵名。崇德元年（1636）定王公以下
江边香织江边香织（日语：江辺香織／えべかおり，1984年11月3日－），出生于日本大阪，居住于东京，是日本花式台球职业选手，出身于台球世家，父亲江边公昭也是日本知名台球好手。2006年12月，江边22岁
罗斯贝数罗斯贝数（Rossby number，简称Ro）也称为罗士比数，得名自美国气象学家卡尔-古斯塔夫·罗斯贝，是一个有关流体流动的无因次量。罗斯贝数是纳维－斯托克斯方程中，惯性力（
佛陀跋陀罗佛陀跋陀罗（梵语：Buddhabhadra、359年－429年），又称佛驮跋陀罗、佛度跋陀罗、觉贤，古印度迦毗罗卫国（今尼泊尔境内）人，为南北朝时期著名译师。佛陀跋陀罗为南北朝时期后秦时来汉地的印
阿玛拉逊莎阿玛拉逊莎(Amalasuntha)，又称为：阿玛娜·希莎(Amalasuentha)(公元495年 - 535/534年4月30日)是526年至534年东哥特人女王，狄奥多里克大帝的第三个女儿。公元515年她嫁给了曾
黄式三黄式三（1789年－1862年），字薇香，号儆居，定海紫微（今属定海区）人，清代学者。出生于定海紫微庄墩头（今定海区双桥镇里溪街道墩头村），自幼读书成癖，其父管教甚严。清道光十二年（1832年）贡生，道光
鸢嘴山鸢嘴山（英语：Yuanzui Mountain），又名大尖山，位于台湾台中市和平区中坑里与博爱里交界处，为大甲溪支流稍来溪、东卯溪与大安溪支流乌石坑溪的分水岭，峰顶海拔2,180米。鸢嘴山同稍来
大玛乌纳勒大玛乌纳勒（鲁凯语：Tamaonalhe），鲁凯族古茶部安（Kochapongan，即旧好茶部落）的守护神。。大玛乌纳勒是一块高度约130公分、厚度约30公分的长方形石头，在鲁凯族的词语中是个古语，原意已不可考，也无法解释，只知是祂的特有名词。据好茶史官拉巴卡喔（Lapagao domalathathe）所说：“祂朝向日落点，是负责把守日落点吹来的瘟疫的台风（Walhigi/Malisi ka saseverane）。”。据传说，曾有天花等疫疾会像台风般从西方传上来，最严重的一次是最西边的达百拉呢区（Ta