ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。
ChatGPT目前仍以文字方式交互,而除了可以通过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本,在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。 在推广的期间中,所有人可以免费注册,并在登录后后免费使用 ChatGPT 实现与 AI 机器人对话。ChatGPT于2022年11月发布后,OpenAI估值已涨至290亿美元.
ChatGPT 使用监督学习和强化学习在 GPT-3.5 之上进行了微调。
ChatGPT使用基于人类反馈的强化学习进行训练,这种方法通过人类干预以增强机器学习的效果,从而获得更为逼真的结果。其使用基于GPT-3.5架构的语言模型。 在训练过程中,人类训练师扮演着用户与人工智能助手的角色。模型在Microsoft Azure的超级计算机上训练,并通过近端策略优化算法(proximal policy optimization)进行微调。这种策略优化算法比信任域策略优化(trust region policy optimization)算法更为高效。
虽然聊天机器人的核心功能是模仿人类对话者,但 ChatGPT 用途广泛。 例如,具有编写和调试计算机程序的能力; 创作音乐、电视剧、童话故事和学生论文; 回答测试问题(在某些测试情境下,水平高于普通人类测试者);写诗和歌词; 模拟 Linux 系统等。
与其前身InstructGPT相比,ChatGPT试图减少有害和误导性的回复。例如,当InstructGPT接受“告诉我2015年克里斯托弗·哥伦布何时来到美国”的提问时,它会认为这是对真实事件的描述,而ChatGPT针对同一问题则会使用其对哥伦布航行的知识和对现代世界的理解来构建一个答案,假设如果哥伦布在2015年来到美国时可能会发生什么。ChatGPT的训练数据包括各种文档以及关于互联网、编程语言等各类知识。
与其他多数聊天机器人不同的是,ChatGPT能够记住与用户之前的对话内容和给它的提示。此外,为了防止ChatGPT接受或生成冒犯性言论,输入内容会由审核API进行过滤,以减少潜在的种族主义或性别歧视等内容。目前,有部分地区无法使用此项服务。
ChatGPT也存在一些局限。其奖励模型围绕人类监督而设计,可能导致过度优化,从而影响性能,即古德哈特定律。例如在训练过程中,不管实际理解或事实内容如何,审核者都会偏好更长的答案。训练数据有时也存在算法偏见,比如当程序接受到首席执行官之类的模糊描述时可能会假设此人是白人男性。
ChatGPT于2022年11月30日由总部位于旧金山的 OpenAI推出。该服务最初是免费向公众推出的,并计划稍后通过该服务获利。 《纽约时报》在 2022 年 12 月转述称,GPT 的下一版本 GPT-4 已被“传言”将于 2023 年某个时候推出。 OpenAI 计划推出 ChatGPT Professional Plan,每月收费 42 美元,免费计划在需求低时可用。
ChatGPT 于 2022 年 12 月获得普遍好评; 《纽约时报》称其为“有史以来向公众发布的最好的人工智能聊天机器人。 据报道,Microsoft Bing 计划在其公共搜索引擎中添加ChatGPT功能选项,时间可能在 2023年 3月左右。
在2022年12月的一篇评论文章中,经济学家保罗·克鲁曼写道,ChatGPT将影响对知识工作者的需求。
2022年12月,问答网站Stack Overflow以“正确答案的平均比率太低”为由暂时禁止用户发布ChatGPT生成的答案。
在大西洋杂志上,Stephen Marche 指出它对学术界,尤其是入学申请论文的影响还有待了解。 加州高中教师兼作家丹尼尔·赫尔曼 (Daniel Herman) 写道,ChatGPT 将迎来“高中英语的终结”。 普林斯顿大学 的高年级本科生 Edward Tian 创建了一个名为“GPTZero”的程序,一个基于 GitHub Co-Pilot 构建的应用程序, 它可以扫描文本以确定是否是另一个 AI 编写的, 打击滥用 CHATGPT。
OpenAI 尚未发布 ChatGPT 的官方 API,但有几个社区创建的库可用。