文本到图像生成模型

✍ dations ◷ 2025-01-08 12:14:20 #文本到图像生成模型

文本到图像生成模型是一种机器学习模型,一般以自然语言描述为输入,输出与该描述相匹配的图像。这种模型的开发始于2010年代中期,伴随深度神经网络技术的发展而进步。2022年,最先进的文生图模型,如OpenAI的DALL-E 2、谷歌大脑的Imagen和StabilityAI的Stable Diffusion开始接近真实照片和人类所绘艺术作品的质量。

文生图模型通常结合了一个语言模型,负责将输入的文本转化为机器描述,而图像生成模型则负责生成图像。最有效的模型通常是用从互联网上抓取的大量图像和文本数据训练出来的。

在深度学习兴起之前,搭建文生图模型的尝试仅限于通过排列现有的组件图像,如来自美工图案数据库的素材,形成类似于拼贴画的图像。

相反的任务,即给图像配文更具有可操作性,在第一个文生图模型出现之前,就已经出现了一些类似的模型。

第一个现代文生图模型是alignDRAW,由多伦多大学研究人员于2015年推出,扩展了之前的DRAW架构(其使用带有注意力机制的循环变分自动编码器)使其能以文本序列作为输入。 Images generated by alignDRAW生成的图像是模糊的,并不逼真,但该模型能归纳出训练数据中没有的物体(如红色校车)。并适当的处理新的提示,如“停车标识在蓝天上飞”,表明它并不仅仅是在“回放”训练集中的数据。

2016年,Reed、Akata、Yan等人首先试图将生成对抗网络用于文生图任务。通过用狭窄的、特定领域的数据集训练的模型,他们能够从文字说明中生成“视觉上可信的”物体,如从“an all black bird with a distinct thick, rounded bill(一只全黑的鸟。有明显的厚而圆的喙)”中生成“视觉上可信的”鸟和花。在更多样化的COCO数据集上训练的模型产生的图像“从远处看……令人鼓舞”,但在细节上缺乏一致性。后来的系统包括VQGAN+CLIP、XMC-GAN和GauGAN2。

最早引起公众广泛关注的文生图模型之一是OpenAI的DALL-E,它是一个公布于2021年1月的Transformer模型系统。2022年4月,又发布了能生成更复杂、更逼真图像的DALL-E 2,2022年8月又出现了公开发布的Stable Diffusion。

继其他文生图模型之后,由语言模型驱动的文生视频平台开始涌现,如Runway、Make-A-Video、Imagen Video、 MidjourneyPhenaki等,它们可以从文本和/或文/图描述生成视频。

文生图模型有各种不同架构。文本编码这一步可以用循环神经网络如长短期记忆(LSTM)网络实现,后来更流行的是Transformer模型。对于图像生成这一步,通常使用条件生成对抗网络,近年来扩散模型也很受欢迎。与其直接训练一个以文本为输入、以高分辨率图像为输出的模型,不如先训练一个模型来生成低分辨率图像,再用一个或多个辅助的深度学习模型来提升质量,填补更精细的细节。

文生图模型是在大型(文,图)对数据集的基础上训练的,通常是从互联网上抓取来的。谷歌大脑在2022年的Imagen模型中使用的大型语言模型仅用到了纯文本数据(其权重随后被冻结),并得到了积极的结果,这与以往的标准方法不同。

训练文生图模型西药一个与文字说明相互相匹配的图像数据集。常用于此目的的数据集是微软于2014年发布的COCO(Common Objects in Context,语境中的常见对象),其由约12.3万张描述各种物体的图片组成,每张图片都有5条说明,由人类标注。Oxford-120 Flowers和CUB-200 Birds是较小的数据集,各有约1万张图片,分别限于花和鸟。它们的主题范围比较窄,因此用它们训练领域内的高质量文生图模型难度较小。

评价文生图模型的质量十分具有挑战性,需要评估多种不同的属性。与任何生成性图像模型相同,所生成的图像最好比较真实(看起来像是来自训练集的有意义图像),且风格多样。文生图模型的一个具体要求是,生成的图像在语义上应与用于生成图像的文字说明相一致。这个一致性的度量与许多方案,有些是自动的,有些则基于人类的判断。

评估图像质量和多样性的常用算法指标是初始分数(Inception score,IS),它基于预训练的Inception v3图像分类模型应用于文生图模型生产的图像样本时,预测的标签分布。一个单一标签的可能性越高,分数就越高,这是基于鼓励“独特性”的理念做出的。另一个较为知名的指标是与其相关的FID分数,它根据预训练的图像分类模型的最后一层所提取的特征,对生成的图像和真实训练图像的分布进行比较。

纽约现代艺术博物馆的“思考机器:1959-1989,计算机时代的艺术与设计”(Thinking Machines: Art and Design in the Computer Age, 1959–1989)展览提供了AI在艺术、建筑和设计中的应用概况。展示AI用于生产艺术作品的展览有2016年谷歌赞助的旧金山灰色区域基金会的慈善活动和拍卖会,以及2017年于洛杉矶和法兰克福举办的“非人类:AI时代的艺术”(Unhuman: Art in the Age of AI),艺术家们在那里实验了DeepDream算法。2018年春,美国计算机协会专门出版了一期以计算机和艺术为主题的杂志。2018年6月,允许观众与AI互动的艺术作品“人与机器的二重奏”(Duet for Human and Machine)于Beall艺术+技术中心首演。奥地利Ars Electronica和维也纳应用艺术博物馆在2019年开设了关于AI的展览。Ars Electronica的2019年节日主题“盒子之外”(Out of the box)探讨了艺术在可持续社会转型中的作用。

2022年9月,一位专家得出结论:“AI艺术现在无处不在”,甚至专家也不知道它将意味着什么。一家新闻媒体确定“AI艺术蓬勃发展”,并报道了专业艺术家的版权和自动化问题,一家新闻媒体则调查了网络社区面对大量此种作品时的反应,也有人提出了对深伪技术的担忧。一部杂志强调了实现“新的艺术表现形式”的可能性,一篇社论指出,它可能被视为一种受欢迎的“人类能力的增强”。Vincent, James. Anyone can use this AI art generator — that's the risk. The Verge. 2022-09-15 . 

这种增强的例子可能包括,使业余爱好者能扩大非商业的市场定位体裁(常见的是赛博朋克衍生体裁,如太阳庞克)。

包括AI艺术在内的合成媒体在2022年被描述为一个主要的技术驱动趋势,可能会在将来几年内影响商业。.

相关

  • 头皮头皮(英文:Scalp)是指头颅上方及后方,从皮肤一直到骨膜的部分,位在脸部的后方及两侧,颈部上方的区域。头皮通常分为五层,而五层的首字母恰好是头皮的英文SCALP,以方便记忆。头皮的
  • 852年重要事件及趋势逝世重要人物
  • 阿连期阿林期(英语:Aalenian)是侏罗纪的第五个时期,年代大约位于174.1–170.3百万年前。
  • 波尔理查德·默思·伯尔(英语:Richard Mauze Burr;1955年11月30日-),是一位美国共和党政治人物,自2005年成为北卡罗莱纳州联邦参议院议员。此前他曾是美国众议院北卡罗莱纳州第一国会选
  • 音乐录像音乐录像(英语:Music Video)又名“音画”、“音乐影片”、“音乐短片”、“音乐视频”、“音乐录影带”等。在华人社会最通行的叫法为其英文名称“Music Video”的首字母缩写“
  • 卡姆 (瑞士)卡姆(德语:Cham)是瑞士联邦楚格州的市镇。该市镇位于楚格湖北岸,距离首府楚格5.5千米,面积为19.82平方千米,海拔高度420米,2018年12月31日人口数为16,719。
  • 埃瑞克·阿贝茨埃瑞克·阿贝茨(Eric Abetz,1958年1月25日-)是一位澳洲政治人物,他的党籍是澳洲自由党。自1994年开始,他是代表塔斯马尼亚州的澳大利亚参议院议员之一。他出生在德国。
  • 溪浪河溪浪河位于中国东北地区,是拉林河左岸支流,上游称细鳞河,发源于吉林省舒兰市上营镇健康村西南老爷岭山脉秃老婆子山东侧,向北流经舒兰市上营镇、小城镇、舒兰市区、水曲柳镇,于平
  • 于大清于大清(1957年11月-),满族,辽宁绥中人。中国人民解放军中将。曾任中国人民解放军第二炮兵副政委。中将军衔。1975年入伍,1977年加入中国共产党。在中国人民解放军总政治部工作多年,曾任总政治部干部部预备役干部局局长,2005—2006年挂职任第41集团军123师政委,2007—2009年任总政治部干部部副部长,2009年12月任总政治部干部部部长。2008年7月晋升为少将军衔。2012年12月任第二炮兵政治部主任。2013年12月升任第二炮兵副政治委员。2014年7月晋升中将军衔。2015年1月1
  • 迈克尔·伊利迈克尔·布朗(英语:Michael Brown,1973年8月3日-),以其艺名迈克尔·伊利(Michael Ealy,/ˈiː.li/)闻名,是一位美国演员。他因出演《哈拉大发师》《速度与激情2》《劫匪》《男人行不行》《昨夜风流》《男人行不行2》和《完美家伙》而广为人知。伊利在福克斯广播公司的科学幻想警察剧情电视剧《机器之心》中主演机器人多利安。伊利出生在华盛顿哥伦比亚特区并成长于马里兰州银泉。伊利从泉溪高中(英语:Springbrook High School)毕业后便就读于大学公园市的马里兰大学学院