DALL-E

✍ dations ◷ 2025-02-24 14:14:36 #DALL-E

DALL-E是一个可以通过文本描述中生成图像的人工智能程序。于2021年1月5日由OpenAI发表。

DALL-E通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入(例如“五边形形状的绿色皮革钱包”或“一只悲伤水豚的等距视图”)并生成相应的图片。它既可以生成现实的对象(例如“带有蓝色草莓图像的彩色玻璃窗”),也能够生成现实中不存在的对象(例如“具有豪猪纹理的立方体”)。它的名字是2008年动画电影WALL-E(瓦力)和20世纪西班牙加泰罗尼亚画家萨尔瓦多·达利(Salvador Dalí)之混成词。

自2000年代以来,已有其他许多神经网络有生成逼真图像的能力。而DALL-E的特点在于它能够通过纯文本描述生成这样逼真的图像。

OpenAI尚未发布DALL-E模型的源代码,不过OpenAI在其网站上提供了DALL-E演示,可以查看部分文本描述的输出图像。除了官方版本的DALL-E,另有DALL-E Mini等其他人发布的以少量数据训练的开源替代方案。

《麻省理工科技评论》认为OpenAI的目标之一是“让语言模型更好地掌握人类用来理解事物的日常概念”。

DALL-E模型最初于2021年1月5日由OpenAI发布。

2022年4月,OpenAI宣布了新版本的DALL-E 2,声称它可以从文本描述中生成照片般逼真的图像,另外还有一个允许对输出进行简单修改的编辑器。根据OpenAI的公告,该程序仍处于研究阶段,访问权限仅限于小部分测试版用户。该模型有时仍会犯一些人类不会犯的严重错误。OpenAI称DALL-E 2是一个“可以从文本描述中生成原创、逼真的图像和艺术”的模型。

DALL-E是与CLIP(Contrastive Language-Image Pre-training,对比图文预训练)模型一起开发并向公众发布的。CLIP是一个单独的模型,其作用是理解输出图像并为其打分。DALL-E生成的图像由CLIP模型进行筛选,以呈现最高质量的图像。

GPT模型最初由OpenAI于2018年开发,其使用了Transformer架构。第二版的GPT-2于2019年发布。2020年又再次扩大规模发布了拥有1750亿个参数的GPT-3。

DALL-E模型是GPT-3的多模态实现,共拥有120亿个参数,使用从网络上收集的文本和图像对进行训练。 它使用零样本学习(英语:Zero-shot learning)从描述和提示中生成输出,而无需进一步训练。

DALL-E会根据提示生成多个图像,之后由CLIP模型对这些图像进行排序。CLIP模型使用了超过4亿对图像和文本进行训练。该模型是一个图像识别系统,它的训练集是从网络上抓取的图像与描述,而不是诸如ImageNet之类的经过整理的标记图像数据集。CLIP将图像与所有文本相关联。它能够预测哪个文本(从32768个随机采样的文本中选择)最适合图像,使其在之后有能力识别不在其训练集之中的图像中的对象。

DALL-E能够生成各种风格的图像,从照相写实主义图像到绘画和表情符号。它还可以“操纵和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中:“例如,当被要求画一个白萝卜擤鼻涕、喝拿铁或骑独轮车时,DALL-E通常能在合理的位置画出手帕、手和脚。”

DALL-E展现了多种能力。《Input》、NBC、《自然》等的报道文章中都提到了DALL-E生成的“穿着芭蕾舞裙遛狗的小白萝卜插图”。 而它生成的“鳄梨形状的扶手椅”也同样受到关注。另一方面,DALL-E还展现出了足以解决瑞文氏标准推理测验(通常用于测量人类智力的视觉测试)的视觉推理技能。

剑桥大学机器学习教授尼尔·劳伦斯(Neil Lawrence)认为DALL-E这类模型有能力存储关于我们这个世界的信息,并以人类认为非常自然的方式进行推广。佐治亚理工学院交互计算学院副教授马克·里德尔(Mark Riedl)则认为DALL-E的演示结果表明它能够协调地融合概念,这是人类创造力的关键要素,同时他指出DALL-E绘制的插图比过去几年其他的Text2Image(由文本生成图像)系统要出色许多。

DALL-E模型在没有特定提示的情况下也能够推断合适细节的能力也受到了关注。技术博客ExtremeTech注意到,DALL-E绘制的“穿着圣诞毛衣的企鹅”不仅会生成企鹅穿着毛衣的图像,而且还会生成与主题相关的圣诞老人帽。另一个技术博客Engadget则注意到模型生成的“一幅一只狐狸冬天坐在田野里的画”中出现了适当放置的阴影。此外,DALL-E展示了对视觉和设计趋势的广泛理解。例如,DALL-E可以绘制指定年代的手机或吸尘器的照片,它了解这些物体的形态是如何随时间改变的。

不过有时模型也会出现错误。比如DALL-E 2就无法区分“一本黄色的书与一个红色的花瓶”与“一本红色的书与一个黄色的花瓶”这两个描述,也无法区分“正在咖啡拉花的熊猫”与“熊猫图案的咖啡拉花”。

相关

  • 墨西拿盐度危机墨西拿盐度危机是指一件大约发生在596万到533万年之前的地质学事件,发生在大西洋到地中海部分地域。墨西拿是西西里岛上的一个地方。 在这段期间,地中海与大西洋在直布罗陀被
  • 斋月赖买丹月(阿拉伯语:رمضان‎,音读:Ramaḍān,意为“禁月”),直译“拉玛丹”和“赖买丹”,或者半意译作“来麦丹”,是伊斯兰历(回历)的第九个月,也是伊斯兰教穆斯林的斋戒月。根据《
  • 代用旗 (1854−1868)日本国旗为一面白色长方形旗帜,旗帜中心为一个红色圆形代表太阳。其正式名称为日章旗(日语:日章旗,にっしょうき,Nisshōki),在日本国内常以“日之丸”(日语:日の丸,ひのまる,Hinomaru)
  • Brothers Conflict《Brothers Conflict》(ブラザーズ コンフリクト),是由叶濑敦子企划、水野隆志编写的日本多媒体作品,原作为小说形式于杂志电击SYLPH连载,并改编为游戏及2013年7月2日开始播放的
  • 竞技场竞技场(拉丁语:arena),建筑学指场地四周被倾斜的阶梯式看台(英语:Seating assignment)环绕的设施,例如罗马斗兽场、体育场、剧场。竞技场在竞技比赛等场合可指中心的场地,也可指包括
  • 桥本裕之桥本裕之(1973年9月27日-),日本男性动画导演、演出家。出身于京都府。现为自由身。
  • 山姆·勒纳山姆·勒纳(英语:Sam Lerner,1992年9月27日-))是美国的一名演员。他出演的首部电影作品是2006年获得奥斯卡提名的电影怪怪屋。
  • 陈柏廷陈柏廷(1966年-),生于台湾台北市,企业家,为万海航运陈家第三代接班人,现任士林纸业、万海航运与八仙乐园董事长。陈柏廷为企业家陈勇之孙,其生父为陈朝亨,其胞兄陈致远、陈致超,其胞弟
  • 像你一样的女孩《像你一样的女孩》(英语:"Girls Like You")是美国乐队魔力红第六张专辑《红蓝药丸》(2017年)中的歌曲。2018年3月30日,222唱片(英语:222 Records)和新视镜唱片发行了这首歌由美国说唱歌手卡迪·B客串的新版本,作为这张专辑的第五首、也是最后一首单曲。这一版本由亚当·莱文、贝尔卡莉丝·阿尔曼萨尔、布里塔尼·塔利亚·哈扎德(英语:Starrah)、吉安·迈克尔·斯通、亨利·沃尔特(英语:Cirkut (record producer))和杰森·埃维根(英语:Jason Ev
  • Girls²Girls²(日语:ガールズガールズ,或称girls-girls,简称为ガルガル或girls)为日本次世代女子唱跳偶像团体。 LDH JAPAN 旗下所属艺人,成员平均16岁。写法上,某些系统或字段无法表示"平方",亦可写成"Girls2"。2019年3月29日,以女孩向特摄剧“女孩×战士系列”为基础,magical²(日语:魔法×戦士 マジマジョピュアーズ!)的magical² SPECIAL LIVE中宣布出道。最初从miracle²,magical²(日语:魔法×戦士 マジマジョピュアーズ!),mi