GPT-1

✍ dations ◷ 2025-08-21 23:07:11 #GPT-1

GPT-1,全称基于转换器的生成式预训练模型1(Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念 。

在此之前,表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用,并使训练超大模型相当耗时且开支非常昂贵;许多语言(例如斯瓦希里语或海地克里奥尔语)由于缺乏能创建起语料库的文本资料,导致模型难以对其进行翻译和解释。相比之下,GPT采用了“半监督”方法,包含两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调(英语:fine-tuning (machine learning))”阶段,将这些参数在目标任务上进行微调。

与之前基于注意力增强的循环神经网络(RNN)技术相比,GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆;使其拥有“跨多样任务的稳健传输性能”。

选择BookCorpus作为训练数据集的一部分原因是其中包含了长篇连续文本,有助于模型学习处理长距离信息。该数据集包含来自各种流派的7,000多本未发表的小说。当时其他可用的数据集虽然更大,但缺乏这种长距离结构(在句子级别上被“洗牌”) 。

研究人与使用库清理BookCorpus文本,以标准化标点和空格,并由进行标记化。

GPT-1采用了十二层的仅解码变换器,使用了12个掩码的自注意力头,每个头有64个维度状态(总共768个维度状态)。GPT-1采用了Adam优化算法(英语:stochastic gradient descent#Adam),而非简单的随机梯度下降(英语:stochastic gradient descent);学习率在前2000次更新中线性增加到最大值2.5×10−4,然后通过余弦调度减少到0。

尽管微调是针对特定任务进行调整的,但其预训练过程并没有调整;为了执行各种任务,只对其底层的与任务无关的模型架构进行了最小的更改。尽管如此,GPT-1仍然在多个语言处理任务中改进了以往的基准,在许多任务上的表现优于面向任务的判别式训练模型。

在自然语言推理(又称文字蕴涵)任务中,GPT-1在QNLI(维基百科条目)和MultiNLI(转录的演讲、流行小说和政府报告等来源)两个数据集上分别比以往最佳结果提升了5.8%和1.5%。该任务评估的是其解释一对句子,并将它们之间的关系分类为“蕴涵”、“矛盾”或“中立”的能力。在与问题回答和常识推理(英语:commonsense reasoning)相关的两个任务上,GPT-1也优于以前的模型,分别在RACE(中学和高中考试题目的数据集)上提升了5.7%,在Story Cloze Test上提升了8.9%。

在语义相似性(又称释义检测)任务方面,GPT-1预测两个句子是否语义对等的能力比以往最佳结果提高了4.2%,该任务使用了Quora问题对(Quora Question Pairs,QQP)数据集。

在使用语言可接受性语料库(Corpus of Linguistic Acceptability,CoLA)进行文本分类任务时,GPT-1获得了45.4分,而以前最好的得分是35.0。在GLUE(一种多任务测试)上,GPT-1获取了72.8的总体得分,优于以前的最好成绩68.9分。


相关

  • 蒙苏里公园蒙苏里公园(法语:Parc Montsouris;有时也直译作:老鼠山公园)是位于法国巴黎南部十四区的一个开放式公园。蒙苏里公园在十九世纪末期曾经整修过,如今占地15公顷。蒙苏里公园环境清
  • 德国电影奖德国电影奖(德语:Deutscher Filmpreis)是德国电影界的最高荣誉,创立于1951年。德国电影奖的奖金为300万欧元,也是德国文化奖项中奖金最高的奖项。德国电影奖通常在柏林举行。从19
  • 奠祭是一种通过撒酒向神献祭的仪式,许多宗教都有此种仪式。中国古代有酹(ㄌㄟˋ)、奠酹、荐酹等仪式,在祭祀后以酒洒地。在犹太教中:以赛亚使用奠祭作为隐喻,描述“受苦的仆人”的
  • 正宫昌德宫昌德宫(韩语:창덕궁)位于韩国首尔市钟路区,由朝鲜王朝(1392年–1897年)一众国王所建,是“朝鲜五大宫殿”之一。1997年被联合国教科文组织登入为世界文化遗产。 位处景福宫东面,作为
  • 英联邦山脉英联邦山脉(英语:Commonwealth Range)是南极洲的山脉,属于毛德王后山脉的一部分,长144公里、宽66公里,面积4,820平方公里,最高点海拔高度4,000米,该山脉在1907至1909年被英国探险队
  • 摩西·阿伦斯摩西·阿伦斯(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Ta
  • 福特总统在萨克拉门托遇刺案福特总统在萨克拉门托遇刺案(英语:Attempted assassination of Gerald Ford in Sacramento)是指1975年9月5日礼拜五,曼森家族信徒、极端环保主义者琳内特·弗洛姆(Lynette Alice“Squeaky” Fromme)在加利福尼亚州首府萨克拉门托暗杀时任美国总统杰拉尔德·福特的未遂事件。弗洛姆称其行凶动机是为向各界宣扬“ATWA”这一曼森家族教义。当日上午,弗洛姆与福特仅有一臂之远,且她迅速掏出M1911手枪对着福特开火;但由于她未上膛,故无人受伤。
  • 陈洪进陈洪进(914年-985年),字济川,泉州仙游县(今福建省莆田市仙游县)人,一说临淮(今安徽省凤阳县)人,于泉州仙游出生,五代十国末期、宋朝初年为清源军节度使(平海军节度使),割据泉州和漳州。陈洪进出生于泉州仙游县连江里侯览(今仙游县枫亭镇秀峰村后榄自然村)。年少时喜欢读书,又学习兵法,以其才能勇略闻名乡里。长大从军后,在一次攻汀州的战役中,因功被任命为副兵马使。闽国永隆六年(944年),朱文进、连重遇杀闽帝王延羲,朱文进并自立为闽主。陈洪进追随留从效、王忠顺、董思安、张汉思等人反抗朱、连一党,并被殷帝王
  • 格恩语格恩语(外语名有Gen、Gɛ̃、Gɛn gbe、Gebe、Guin、Mina、Mina-Gen与Popo等)是尼日尔-刚果语系大西洋-刚果语族沃尔特-刚果语支格贝语支的一种语言。此语言通行于多哥东南部滨海区一带,亦通行于贝宁的莫诺省地区。就如其他格贝语族语言一般,格恩语是种声调语言。据SIL/Ethnologue (页面存档备份,存于互联网档案馆)的资料,在1991年,多哥有约200,000使用格恩语;而在2006年,贝宁有约130,000人使用此语言。
  • 隐瞒之事《隐瞒之事》(日语:かくしごと)是久米田康治的漫画作品,于2015年12月在《月刊少年Magazine》2016年1月号开始连载,于2020年8月号完结。后藤可久士是一名低级搞笑漫画家,为了不让女儿知道自己真正的工作,每天都努力隐瞒真相。日文标题“かくしごと”既是“隐瞒之事(隠し事)”与“绘画工作(描く仕事)”的双关语,也隐含了主角后藤可久士的名字倒装(ごとう かくし→かくしごと(う))。声优排序以动画/预告片区分,只有单独一个声优演出为动画版。于2020年4月起于日本BS日视电视台播出。