GPT-1

✍ dations ◷ 2025-11-06 00:46:30 #GPT-1

GPT-1,全称基于转换器的生成式预训练模型1(Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念 。

在此之前,表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用,并使训练超大模型相当耗时且开支非常昂贵;许多语言(例如斯瓦希里语或海地克里奥尔语)由于缺乏能创建起语料库的文本资料,导致模型难以对其进行翻译和解释。相比之下,GPT采用了“半监督”方法,包含两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调(英语:fine-tuning (machine learning))”阶段,将这些参数在目标任务上进行微调。

与之前基于注意力增强的循环神经网络(RNN)技术相比,GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆;使其拥有“跨多样任务的稳健传输性能”。

选择BookCorpus作为训练数据集的一部分原因是其中包含了长篇连续文本,有助于模型学习处理长距离信息。该数据集包含来自各种流派的7,000多本未发表的小说。当时其他可用的数据集虽然更大,但缺乏这种长距离结构(在句子级别上被“洗牌”) 。

研究人与使用库清理BookCorpus文本,以标准化标点和空格,并由进行标记化。

GPT-1采用了十二层的仅解码变换器,使用了12个掩码的自注意力头,每个头有64个维度状态(总共768个维度状态)。GPT-1采用了Adam优化算法(英语:stochastic gradient descent#Adam),而非简单的随机梯度下降(英语:stochastic gradient descent);学习率在前2000次更新中线性增加到最大值2.5×10−4,然后通过余弦调度减少到0。

尽管微调是针对特定任务进行调整的,但其预训练过程并没有调整;为了执行各种任务,只对其底层的与任务无关的模型架构进行了最小的更改。尽管如此,GPT-1仍然在多个语言处理任务中改进了以往的基准,在许多任务上的表现优于面向任务的判别式训练模型。

在自然语言推理(又称文字蕴涵)任务中,GPT-1在QNLI(维基百科条目)和MultiNLI(转录的演讲、流行小说和政府报告等来源)两个数据集上分别比以往最佳结果提升了5.8%和1.5%。该任务评估的是其解释一对句子,并将它们之间的关系分类为“蕴涵”、“矛盾”或“中立”的能力。在与问题回答和常识推理(英语:commonsense reasoning)相关的两个任务上,GPT-1也优于以前的模型,分别在RACE(中学和高中考试题目的数据集)上提升了5.7%,在Story Cloze Test上提升了8.9%。

在语义相似性(又称释义检测)任务方面,GPT-1预测两个句子是否语义对等的能力比以往最佳结果提高了4.2%,该任务使用了Quora问题对(Quora Question Pairs,QQP)数据集。

在使用语言可接受性语料库(Corpus of Linguistic Acceptability,CoLA)进行文本分类任务时,GPT-1获得了45.4分,而以前最好的得分是35.0。在GLUE(一种多任务测试)上,GPT-1获取了72.8的总体得分,优于以前的最好成绩68.9分。


相关

  • 球菌球菌(拉丁语:coccus,复数cocci)是一类外观呈球形或近似球形的细菌。根据排列方式的不同,球菌可分为单球菌、双球菌、链球菌、四联球菌、八叠球菌以及葡萄球菌等。细菌疾病 · 科
  • 苗语苗语是苗族人语言的统称,属于苗瑶语族的苗语支。分布在中国的湖南、四川、贵州、云南等地;以及越南、老挝、泰国、美国等国。苗语可以分为湘西(100万人)、黔东(210万人)和川黔滇(30
  • 藤田省三 (思想史家)藤田省三(1927年9月17日-2003年5月28日)是一名日本的思想史家、政治学家(日本思想史)。毕业于东京大学法学部,之后长期担任法政大学法学部教授,是战后丸山真男学派的代表,左派系思想
  • 吴南轩吴南轩(1893年-1980年),原名冕,字南轩,以字行,男,江苏仪征人,中国心理学家,曾任国立清华大学校长,国立复旦大学校长。吴南轩于1919年于复旦大学预科毕业,赴美留学于加利福尼亚大学,1923年
  • 处理器设计处理器设计是指设计计算机处理器(如中央处理器(CPU))的工程学,是计算机硬件(设计)的一部分,它是计算机工程和电子工程中的一个分支。处理器设计关注:处理器为高性能需求设计。可
  • 雷根斯堡大学植物园雷根斯堡大学植物园(Botanischer Garten der Universität Regensburg)是一个由雷根斯堡大学管理的植物园,位于德国巴伐利亚雷根斯堡大学街31号,占地4.5公顷。植物园在温暖的月
  • 安达与岛村《安达与岛村》(日语:安達としまむら)是日本作家入间人间的轻小说,前8卷由のん负责绘制插画。于《电击文库MAGAZINE》第28期开始连载。两部同名漫画分别连载于《GANGAN ONLINE》
  • 毛民国毛民国是《淮南子》所记海外三十六国之一,其民称作毛民,位于玄股国北方、劳民国南方的大海洲岛上,离临海郡东南两千里,其人身材矮小,不穿衣服,全身长满像箭镞般的硬毛,住在山洞里,依姓,大禹的后裔。在《太平御览》引《临海异物志》中及引《土物志》中亦有记载有毛人洲。传说在西晋永嘉四年时,吴郡司盐都尉戴逢在海边发现一艘船,上有男女四人,模样皆为全身长毛发,言语不通,送至丞相府,在路途中死亡,仅剩一人活着。生下一子,逐渐通晓人语,并自称为毛民。在《山海经·海外东经》、《大荒东经》、《大荒北经》中有所记载。
  • 格策 (姓氏)格策 或者 葛策(德语:Götze,Goetze)可以指:
  • 青木繁青木繁(1882年7月13日-1911年3月25日)是日本洋画家。出生于福冈县久留米市。