GPT-1

✍ dations ◷ 2025-07-13 14:04:59 #GPT-1

GPT-1,全称基于转换器的生成式预训练模型1(Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念 。

在此之前,表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用,并使训练超大模型相当耗时且开支非常昂贵;许多语言(例如斯瓦希里语或海地克里奥尔语)由于缺乏能创建起语料库的文本资料,导致模型难以对其进行翻译和解释。相比之下,GPT采用了“半监督”方法,包含两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调(英语:fine-tuning (machine learning))”阶段,将这些参数在目标任务上进行微调。

与之前基于注意力增强的循环神经网络(RNN)技术相比,GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆;使其拥有“跨多样任务的稳健传输性能”。

选择BookCorpus作为训练数据集的一部分原因是其中包含了长篇连续文本,有助于模型学习处理长距离信息。该数据集包含来自各种流派的7,000多本未发表的小说。当时其他可用的数据集虽然更大,但缺乏这种长距离结构(在句子级别上被“洗牌”) 。

研究人与使用库清理BookCorpus文本,以标准化标点和空格,并由进行标记化。

GPT-1采用了十二层的仅解码变换器,使用了12个掩码的自注意力头,每个头有64个维度状态(总共768个维度状态)。GPT-1采用了Adam优化算法(英语:stochastic gradient descent#Adam),而非简单的随机梯度下降(英语:stochastic gradient descent);学习率在前2000次更新中线性增加到最大值2.5×10−4,然后通过余弦调度减少到0。

尽管微调是针对特定任务进行调整的,但其预训练过程并没有调整;为了执行各种任务,只对其底层的与任务无关的模型架构进行了最小的更改。尽管如此,GPT-1仍然在多个语言处理任务中改进了以往的基准,在许多任务上的表现优于面向任务的判别式训练模型。

在自然语言推理(又称文字蕴涵)任务中,GPT-1在QNLI(维基百科条目)和MultiNLI(转录的演讲、流行小说和政府报告等来源)两个数据集上分别比以往最佳结果提升了5.8%和1.5%。该任务评估的是其解释一对句子,并将它们之间的关系分类为“蕴涵”、“矛盾”或“中立”的能力。在与问题回答和常识推理(英语:commonsense reasoning)相关的两个任务上,GPT-1也优于以前的模型,分别在RACE(中学和高中考试题目的数据集)上提升了5.7%,在Story Cloze Test上提升了8.9%。

在语义相似性(又称释义检测)任务方面,GPT-1预测两个句子是否语义对等的能力比以往最佳结果提高了4.2%,该任务使用了Quora问题对(Quora Question Pairs,QQP)数据集。

在使用语言可接受性语料库(Corpus of Linguistic Acceptability,CoLA)进行文本分类任务时,GPT-1获得了45.4分,而以前最好的得分是35.0。在GLUE(一种多任务测试)上,GPT-1获取了72.8的总体得分,优于以前的最好成绩68.9分。


相关

  • 多发性大动脉炎大动脉炎(Takayasu arteritis,TA)是一种累及主动脉及其主要分支以及肺动脉的慢性进行性非特异炎性疾病:841。疾病由日本医生高安右人(Mikito Takayasu)在1908年首次报告,因此又被
  • 有性生殖的演化有性生殖的演化由若干个相互竞争的科学假说所描述。所有有性生殖的真核生物都来自一种单细胞、真核的共同祖先。很多原生生物,以及大多数多细胞的动物,植物和真菌,都进行有性生
  • 亚铁磁性在物理学中,亚铁磁性物质为不同亚晶格的原子磁矩呈相反的物质,如在反铁磁性中;然而,在亚铁磁性物质中,相反的磁矩不相等,存在自发磁化。该情况发生于,当亚晶格是由不同的材料或不同
  • 阿拉伯胶阿拉伯胶(英语:Gum arabic)是从阿拉伯胶树和塞伊耳相思树(英语:Acacia seyal)这两种豆科含羞草亚科金合欢中取出植物汁液制成的树胶(英语:Natural gum),阿拉伯胶今日已经成为塞内加尔
  • 贝莱德贝莱德(英语:BlackRock Inc.,NYSE:BLK)是美国的投资管理公司,总部设于于美国纽约市,并在全球26个国家中设立了74个办事处,客户遍及60个国家。主要业务为针对法人与零售通路提供投资
  • 迈克尔·拉宾迈克尔·O·拉宾(Michael Oser Rabin希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","
  • 让·龙格让·龙格(法语:Jean-Laurent-Frederick Longuet 1876年10月5日-1938年9月11日 )法国社会主义政治家、记者,生于英国伦敦。卡尔·马克思的外孙。父亲为沙尔·龙格,母亲为燕妮·龙格
  • 凯丽·加纳凯丽·加纳(Kelli Garner,1984年4月11日-),美国女演员。加纳曾演出的作品包含《啦妹当家(英语:Man of the House (2005 crime comedy film))》、《飞行者》、《阳光少年杀人事件(英语
  • 大村和市郎大村和市郎(1933年1月1日-),日本足球运动员,前日本国家足球队成员。从1956年到1958年,他共为日本国家足球队出场5次。
  • 卡尔·弗里德里希 (巴登)卡尔·弗里德里希(Karl Friedrich,1728年11月22日-1811年6月10日)是巴登统治者。1738年继位巴登-杜拉赫藩侯,1771年继承绝嗣的巴登-巴登藩侯国成为统一的巴登藩侯。1803年晋升选帝侯,1806年成为第一任巴登大公。卡尔·弗里德里希是巴登-杜拉赫藩侯世子弗里德里希与拿骚-迪茨的安娜·夏洛特·阿玛丽埃的长子,1728年11月22日生于巴登-杜拉赫藩侯领地的首府卡尔斯鲁厄。卡尔·弗里德里希不到四岁的时候(1732年),他的父亲就去世了。他于是成为了祖父巴登-杜拉赫藩侯卡尔三世·