在人工智能中,幻觉或人工智能幻觉是人工智能的自信反应。当模型有“幻觉”(输出欺骗性数据的倾向)时,其使用的的训练数据并不能证明输出的合理性。
该术语源自幻觉的心理学概念,因为它们具有相似的特征。人工智能幻觉的危险之处之一是模型的输出看起来是正确的,即使它本质上是错误的。
在自然语言处理中,幻觉通常被定义为“生成的内容与提供的源内容无意义或不可信”。文本和表达之间的编码和解码错误会导致幻觉。产生不同反应的人工智能训练也可能导致幻觉。当 AI 在数据集上进行训练时,也会出现幻觉,其中标记的摘要尽管事实上准确,但并不直接基于据称被“总结”的标记数据。较大的数据集会产生参数知识问题(学习系统参数中硬连接的知识),如果系统对其硬连接知识过于自信,则会产生幻觉。在GPT-3等系统中,人工智能会根据之前的一系列单词(包括它自己先前回应过的单词)生成下一个单词,随着对话时长的增加,可能会不断地产生幻觉。 到 2022 年, 等报纸表示担心,随着基于大型语言模型的机器人的使用数量持续增长,用户对机器人输出的过于信任可能会导致问题。
2022 年 8 月, Meta在发布 BlenderBot 3 期间警告说,该系统容易出现“幻觉”,Meta 将其定义为“自信的假话”。 2022 年 11 月 15 日,Meta 发布了卡拉狄加(英语:Galactica)的演示版,旨在“存储、组合和推理科学知识”。 卡拉狄加生成的内容带有警告“输出可能不可靠!语言模型很容易输出幻觉文本。”在一个案例中,当被要求起草一篇关于创建虚拟形象的论文时,卡拉狄加引用了一位在相关领域工作的工作者的虚构的论文。 Meta 于 11 月 17 日因其具有一定的冒犯性和因幻觉产生的不准确而撤回了卡拉狄加的演示版。
OpenAI的ChatGPT于 2022 年 12 月公开发布测试版,它基于 GPT-3.5 系列大型语言模型。沃顿商学院的 莫里克(英语:Ethan Mollick,直译:莫里克 )教授将 ChatGPT 称为“无所不知、渴望被取悦但有时会撒谎的实习生英语:omniscient, eager-to-please intern who sometimes lies to you”。数据科学家 特蕾莎(英语:Teresa Kubacka) 讲述了其故意编造“英语:cycloidal inverted electromagnon,直译:摆线倒置电磁铁”这个短语,并通过向 ChatGPT 询问不存在的现象来测试 ChatGPT。 ChatGPT 回答了了一个听起来似是而非的答案,并配以看似有理有据的引用,使她不得不仔细检查自己是否不小心输入了真实现象的名称。奥伦( 英语:Oren Etzioni,直译:奥伦·埃齐安)等其他学者一起评估 Kubacka ,并评价道此类软件通常可以为用户提供“一个非常令人印象深刻的答案,但却是完全错误的”。
的 麦克(英语:Mike Pearl) 使用多个问题测试了 ChatGPT。在其中一个例子中,他询问了“中美洲除墨西哥以外最大的国家”的模型。 ChatGPT 回复了危地马拉 ,而答案却是尼加拉瓜 。 当 CNBC 向 ChatGPT 询问“The Ballad of Dwight Fry”的歌词时,ChatGPT 提供了虚构的歌词。 在为新 iPhone 14 Pro 撰写评论的过程中,ChatGPT 错误地将相关芯片组列为 A15 而不是 A16 ,尽管这可以归因于 ChatGPT 是在 2021 年结束的数据集上训练的。 当被问及有关新不伦瑞克省的问题时,ChatGPT 回答了很多正确答案,但错误地将萨曼莎·比归类为“来自新不伦瑞克省的人”。 当被问及天体物理学磁场时,ChatGPT 错误地提出“黑洞的(强)磁场是由其附近极强的引力产生的”的理论。 快公司要求 ChatGPT 生成一篇关于特斯拉上一财季的新闻文章; ChatGPT 创建了一篇连贯的文章,但编造了其中包含的财务数字。
人们认为,自然语言模型产生幻觉数据的可能原因有很多。 例如:
“幻觉”的概念比自然语言处理的应用更广泛。任何 AI 的自信反应,如果可能被训练数据判断为不合理时,都可以被标记为幻觉。 《连线》在 2018 年指出,尽管没有记录在案的其他对抗性攻击(研究人员的概念验证攻击除外),但智能电子产品和自动驾驶等系统容易受到影响这一点“几乎没有争议”。对抗性攻击可能导致其它类别的人工智能产生幻觉。示例包括在计算机视觉不可识别的停止标志;一个音频剪辑被设计成听起来没有表达什么信息,但被某软件转录为“evil.com”等。
《连线》引用的各种研究人员将对抗性幻觉归类为高维统计现象,或者将幻觉归因于训练数据不足。一些研究人员认为,在物体识别的情况下,一些被人类归类为“幻觉”的“不正确”人工智能反应实际上可能被训练数据证明是正确的,甚至人工智能可能给出了人类审阅者认为的“正确”答案,人类并未看到。例如,对于人类来说,一张看起来像狗的普通图像的对抗性图像,实际上可能被 AI 视为包含微小的图案,这些图案(在真实图像中)只会在观看猫时出现。人工智能检测到了人类不敏感的源图像中的细节。
然而,这些发现受到了其他研究人员的质疑。 例如,有人反对称模型可能偏向表面统计数据,导致对抗训练在现实场景中不具有鲁棒性。
幻觉现象仍未完全被了解。 因此,从业者仍在进行研究以试图减轻/减缓其出现。 特别是,研究表明,语言模型不仅会产生幻觉,还会放大幻觉,即使是那些旨在缓解这一问题的模型也遇到了同样的问题。