GPT-1

✍ dations ◷ 2025-06-20 16:37:30 #GPT-1

GPT-1,全称基于转换器的生成式预训练模型1(Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念 。

在此之前,表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用,并使训练超大模型相当耗时且开支非常昂贵;许多语言(例如斯瓦希里语或海地克里奥尔语)由于缺乏能创建起语料库的文本资料,导致模型难以对其进行翻译和解释。相比之下,GPT采用了“半监督”方法,包含两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调(英语:fine-tuning (machine learning))”阶段,将这些参数在目标任务上进行微调。

与之前基于注意力增强的循环神经网络(RNN)技术相比,GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆;使其拥有“跨多样任务的稳健传输性能”。

选择BookCorpus作为训练数据集的一部分原因是其中包含了长篇连续文本,有助于模型学习处理长距离信息。该数据集包含来自各种流派的7,000多本未发表的小说。当时其他可用的数据集虽然更大,但缺乏这种长距离结构(在句子级别上被“洗牌”) 。

研究人与使用库清理BookCorpus文本,以标准化标点和空格,并由进行标记化。

GPT-1采用了十二层的仅解码变换器,使用了12个掩码的自注意力头,每个头有64个维度状态(总共768个维度状态)。GPT-1采用了Adam优化算法(英语:stochastic gradient descent#Adam),而非简单的随机梯度下降(英语:stochastic gradient descent);学习率在前2000次更新中线性增加到最大值2.5×10−4,然后通过余弦调度减少到0。

尽管微调是针对特定任务进行调整的,但其预训练过程并没有调整;为了执行各种任务,只对其底层的与任务无关的模型架构进行了最小的更改。尽管如此,GPT-1仍然在多个语言处理任务中改进了以往的基准,在许多任务上的表现优于面向任务的判别式训练模型。

在自然语言推理(又称文字蕴涵)任务中,GPT-1在QNLI(维基百科条目)和MultiNLI(转录的演讲、流行小说和政府报告等来源)两个数据集上分别比以往最佳结果提升了5.8%和1.5%。该任务评估的是其解释一对句子,并将它们之间的关系分类为“蕴涵”、“矛盾”或“中立”的能力。在与问题回答和常识推理(英语:commonsense reasoning)相关的两个任务上,GPT-1也优于以前的模型,分别在RACE(中学和高中考试题目的数据集)上提升了5.7%,在Story Cloze Test上提升了8.9%。

在语义相似性(又称释义检测)任务方面,GPT-1预测两个句子是否语义对等的能力比以往最佳结果提高了4.2%,该任务使用了Quora问题对(Quora Question Pairs,QQP)数据集。

在使用语言可接受性语料库(Corpus of Linguistic Acceptability,CoLA)进行文本分类任务时,GPT-1获得了45.4分,而以前最好的得分是35.0。在GLUE(一种多任务测试)上,GPT-1获取了72.8的总体得分,优于以前的最好成绩68.9分。


相关

  • 底波拉底波拉(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Taamey A
  • 内特·帕克内特·帕克(Nate Parker,1979年11月18日-)是一名非裔美国男演员、导演、编剧和监制。主要作品有《灯光之外》、《红色尾翼》、、、《套利交易》、 和 ,以及自编自导自演的《一个
  • 米隆加米隆加 (西班牙文 Milonga),是一个音乐及舞蹈术语,指的是南美洲,尤其是阿根廷、巴西、乌拉圭一带的一种风格近似于探戈的流行舞曲的音乐形式。作为舞曲的米隆加,可以填入不同的
  • 阿尔伯特·维克多·贝克隆德阿尔伯特·维克多·贝克隆德(瑞典语:Albert Victor Bäcklund,1845年1月11日-1922年2月23日),是瑞典数学家和物理学家。1907至1909年曾任隆德大学教授和院长。生于赫加奈斯市,1864
  • KVM切换器KVM切换器(英语:KVM switch),一般简称KVM,又名多电脑切换器,是一种电脑硬件设备,可以使用户透过一组键盘、屏幕和鼠标控制多台电脑。KVM,即键盘、显示器、鼠标的英文首字母缩写(Keybo
  • 许春荣许春荣(1839年~1910年),清朝末年上海巨商、买办,以经营纺织业、钱庄业闻名。原籍浙江宁波,后移居湖州,一说苏州。清朝同治六年(1867年),到上海做生意,与同乡宁波鄞县翁氏(据考为翁文灏的
  • 入江亚季入江亚季(日语:入江 亜季),日本女性漫画家。出身于香川县丸龟市。她的作品主要在《Harta(日语:ハルタ (漫画誌))》发表。代表作是《群青学舎(日语:群青学舎)》、《小乱之魔法家族(日语:
  • 东矢本站东矢本站(日语:東矢本駅/ひがしやもとえき  */?)是一位于日本宫城县东松岛市矢本字下浦,隶属于东日本旅客铁道(JR东日本)的铁路车站。开业当日刚好是日本国铁分割民营化前的最后
  • 洪东炜洪东炜(1954年—),无党籍,曾任高雄港区土地开发公司总经理,曾任韩国瑜市府的高雄市副市长之一,2018年底就任,分管高雄市政府财政、教育、体育等部门,并于2019年8月16日卸任。国立中山大学公共事务管理研究所博士,担任国立高雄科技大学会计研究所兼任副教授。洪东炜自民国65年起担任公职,曾任财政部高雄国税局副局长、高雄市税捐稽征处处长、高雄市政府财政局代理局长、高雄市政府财政局副局长、高雄市政府财政局主任秘书、高雄市政府秘书处专门委员、财政部税制委员会执行秘书等职。
  • 有马温泉有马温泉(日语:有馬温泉)是位于日本兵库县神户市北区有马町的温泉区。日本三古汤之一,《枕草子》及林罗山都将其列为三名泉,江户时代的温泉番付中为排名最高的西大关。有马位于断层带“有马高槻构造线”的最西端,因此有位于地下深处的温泉水涌出。而涌出的温泉水有含铁及盐分的盐化物泉(日语:塩化物泉)、富含镭的放射能泉(日语:放射能泉)、富含碳酸的碳酸氢盐泉(日语:炭酸水素塩泉)三种。在涌出后,含铁的盐化物泉会因为与空气接触而变成褐色,在有马被称为“金泉”,其他维持透明的泉水则被称为“银泉”。而“金泉”和“银泉”两名称