DALL-E

✍ dations ◷ 2025-11-12 08:20:11 #DALL-E

DALL-E是一个可以通过文本描述中生成图像的人工智能程序。于2021年1月5日由OpenAI发表。

DALL-E通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入（例如“五边形形状的绿色皮革钱包”或“一只悲伤水豚的等距视图”）并生成相应的图片。它既可以生成现实的对象（例如“带有蓝色草莓图像的彩色玻璃窗”），也能够生成现实中不存在的对象（例如“具有豪猪纹理的立方体”）。它的名字是2008年动画电影WALL-E（瓦力）和20世纪西班牙加泰罗尼亚画家萨尔瓦多·达利（Salvador Dalí）之混成词。

自2000年代以来，已有其他许多神经网络有生成逼真图像的能力。而DALL-E的特点在于它能够通过纯文本描述生成这样逼真的图像。

OpenAI尚未发布DALL-E模型的源代码，不过OpenAI在其网站上提供了DALL-E演示，可以查看部分文本描述的输出图像。除了官方版本的DALL-E，另有DALL-E Mini等其他人发布的以少量数据训练的开源替代方案。

《麻省理工科技评论》认为OpenAI的目标之一是“让语言模型更好地掌握人类用来理解事物的日常概念”。

DALL-E模型最初于2021年1月5日由OpenAI发布。

2022年4月，OpenAI宣布了新版本的DALL-E 2，声称它可以从文本描述中生成照片般逼真的图像，另外还有一个允许对输出进行简单修改的编辑器。根据OpenAI的公告，该程序仍处于研究阶段，访问权限仅限于小部分测试版用户。该模型有时仍会犯一些人类不会犯的严重错误。OpenAI称DALL-E 2是一个“可以从文本描述中生成原创、逼真的图像和艺术”的模型。

DALL-E是与CLIP（Contrastive Language-Image Pre-training，对比图文预训练）模型一起开发并向公众发布的。CLIP是一个单独的模型，其作用是理解输出图像并为其打分。DALL-E生成的图像由CLIP模型进行筛选，以呈现最高质量的图像。

GPT模型最初由OpenAI于2018年开发，其使用了Transformer架构。第二版的GPT-2于2019年发布。2020年又再次扩大规模发布了拥有1750亿个参数的GPT-3。

DALL-E模型是GPT-3的多模态实现，共拥有120亿个参数，使用从网络上收集的文本和图像对进行训练。它使用零样本学习（英语：Zero-shot learning）从描述和提示中生成输出，而无需进一步训练。

DALL-E会根据提示生成多个图像，之后由CLIP模型对这些图像进行排序。CLIP模型使用了超过4亿对图像和文本进行训练。该模型是一个图像识别系统，它的训练集是从网络上抓取的图像与描述，而不是诸如ImageNet之类的经过整理的标记图像数据集。CLIP将图像与所有文本相关联。它能够预测哪个文本（从32768个随机采样的文本中选择）最适合图像，使其在之后有能力识别不在其训练集之中的图像中的对象。

DALL-E能够生成各种风格的图像，从照相写实主义图像到绘画和表情符号。它还可以“操纵和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中：“例如，当被要求画一个白萝卜擤鼻涕、喝拿铁或骑独轮车时，DALL-E通常能在合理的位置画出手帕、手和脚。”

DALL-E展现了多种能力。《Input》、NBC、《自然》等的报道文章中都提到了DALL-E生成的“穿着芭蕾舞裙遛狗的小白萝卜插图”。而它生成的“鳄梨形状的扶手椅”也同样受到关注。另一方面，DALL-E还展现出了足以解决瑞文氏标准推理测验（通常用于测量人类智力的视觉测试）的视觉推理技能。

剑桥大学机器学习教授尼尔·劳伦斯（Neil Lawrence）认为DALL-E这类模型有能力存储关于我们这个世界的信息，并以人类认为非常自然的方式进行推广。佐治亚理工学院交互计算学院副教授马克·里德尔（Mark Riedl）则认为DALL-E的演示结果表明它能够协调地融合概念，这是人类创造力的关键要素，同时他指出DALL-E绘制的插图比过去几年其他的Text2Image（由文本生成图像）系统要出色许多。

DALL-E模型在没有特定提示的情况下也能够推断合适细节的能力也受到了关注。技术博客ExtremeTech注意到，DALL-E绘制的“穿着圣诞毛衣的企鹅”不仅会生成企鹅穿着毛衣的图像，而且还会生成与主题相关的圣诞老人帽。另一个技术博客Engadget则注意到模型生成的“一幅一只狐狸冬天坐在田野里的画”中出现了适当放置的阴影。此外，DALL-E展示了对视觉和设计趋势的广泛理解。例如，DALL-E可以绘制指定年代的手机或吸尘器的照片，它了解这些物体的形态是如何随时间改变的。

不过有时模型也会出现错误。比如DALL-E 2就无法区分“一本黄色的书与一个红色的花瓶”与“一本红色的书与一个黄色的花瓶”这两个描述，也无法区分“正在咖啡拉花的熊猫”与“熊猫图案的咖啡拉花”。

相关

艾德艾德·麦克·肯尼思 (Áed mac Cináeda，死于878)是肯尼思一世 ("Kenneth MacAlpin")之子。877年，他在其兄君士坦丁一世死后即位为皮克特人的国王。他的绰号有白花艾德、翼足
汉字语汉字语（韩语：한자어／漢字語）是韩语对以汉字词组成的词语，亦即汉字文化圈的韩语版“汉字词”的称呼。当中主要分为三大种类，包括从古汉语传入的词语、日治时期传入的和制汉语、以及
郭永怀郭永怀（1909年4月4日－1968年12月5日），山东荣成人，中国流体力学家。1999年颁发两弹一星功勋奖章受勋23位科学家之一，主导两弹一星之中原子弹的力学研究。本科为北京大学物理系转学
汉斯-格奥尔格·冯·弗里德堡汉斯-格奥尔格·冯·弗里德堡（德语：Hans-Georg von Friedeburg，1895年7月15日－1945年5月23日）是纳粹德国的一位海军大将，曾担任海军潜艇副总司令，也是最后一任的海军总司令。尽管弗
罗伦·赫顿罗伦·赫顿（英语：Lauren Hutton，1943年11月17日－），美国时尚模特儿和演员。她在纽约出道，并以牙间隙特色而为人所知。赫顿和彩妆品牌露华浓的1973年代言合约是当时模特界史上最高薪
新北市立汐止国民中学新北市立汐止国民中学（简称汐止国中、汐中），1920年正式成立，位于新北市汐止区台五线上。以蓝、白双色为主轴，制服、运动服皆以此双色构成。校歌曲：连关青山峨峨绿水滔滔汐止地
异诺弄蝶属共5种，详阅正文。异诺弄蝶属（属名：）是弄蝶亚科刺胫弄蝶族里的一个属，共有5个物种，分布于东洋界。中国分布2种。物种曾经都归入孔弄蝶属。属名源于齐诺弄蝶属的学名“”，因为这个新
阿塞拜疆嘻哈阿塞拜疆嘻哈（阿塞拜疆语：Azərbaycan hip-hopu）是20世纪90年代中期开始在阿塞拜疆流行的一种音乐流派，为阿塞拜疆音乐（英语：Music of Azerbaijan）本土梅哈那（英语：Meykhana）流派和西方嘻哈的混合体。第一首阿塞拜疆嘻哈歌曲《昨日已逝》（Dünənki keçdi），由钦吉兹·穆斯塔法耶夫（英语：Chingiz Mustafayev）于1983年创作，他后来因不相关的原因成为阿塞拜疆的民族英雄。阿塞拜疆说唱先驱在1992年经常与安尔·纳吉尔巴斯（英语：Anar N
匈牙利圣冠匈牙利圣冠（匈牙利语：Szent Korona，德语：Stephanskrone，克罗地亚语：Kruna svetoga Stjepana，拉丁语：Sacra Corona，又称圣伊斯特万王冠、圣史蒂芬王冠）是匈牙利国王的王冠，为匈牙利国家的象征。历代匈牙利的国王加冕时都要戴上这顶王冠，以证明其合法性。现行的匈牙利国徽上也有此王冠。最初的王冠由教宗西尔维斯特二世于公元1000年赠与伊斯特万一世，称为“拉丁王冠”。1038年，伊斯特万一世去世。1083年，伊斯特万一世被罗马教会封为“圣徒”，加冕所用的王冠则
阿诺尔·阿特拉松阿诺尔·阿特拉松（冰岛语：Arnór Atlason，1984年7月23日－），冰岛男子手球运动员。他曾代表冰岛国家队参加2008年和2012年夏季奥林匹克运动会手球比赛，其中2008年奥运会获得一枚银牌。