GPT-1

✍ dations ◷ 2025-02-28 21:48:34 #GPT-1

GPT-1,全称基于转换器的生成式预训练模型1(Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念 。

在此之前,表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用,并使训练超大模型相当耗时且开支非常昂贵;许多语言(例如斯瓦希里语或海地克里奥尔语)由于缺乏能创建起语料库的文本资料,导致模型难以对其进行翻译和解释。相比之下,GPT采用了“半监督”方法,包含两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调(英语:fine-tuning (machine learning))”阶段,将这些参数在目标任务上进行微调。

与之前基于注意力增强的循环神经网络(RNN)技术相比,GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆;使其拥有“跨多样任务的稳健传输性能”。

选择BookCorpus作为训练数据集的一部分原因是其中包含了长篇连续文本,有助于模型学习处理长距离信息。该数据集包含来自各种流派的7,000多本未发表的小说。当时其他可用的数据集虽然更大,但缺乏这种长距离结构(在句子级别上被“洗牌”) 。

研究人与使用库清理BookCorpus文本,以标准化标点和空格,并由进行标记化。

GPT-1采用了十二层的仅解码变换器,使用了12个掩码的自注意力头,每个头有64个维度状态(总共768个维度状态)。GPT-1采用了Adam优化算法(英语:stochastic gradient descent#Adam),而非简单的随机梯度下降(英语:stochastic gradient descent);学习率在前2000次更新中线性增加到最大值2.5×10−4,然后通过余弦调度减少到0。

尽管微调是针对特定任务进行调整的,但其预训练过程并没有调整;为了执行各种任务,只对其底层的与任务无关的模型架构进行了最小的更改。尽管如此,GPT-1仍然在多个语言处理任务中改进了以往的基准,在许多任务上的表现优于面向任务的判别式训练模型。

在自然语言推理(又称文字蕴涵)任务中,GPT-1在QNLI(维基百科条目)和MultiNLI(转录的演讲、流行小说和政府报告等来源)两个数据集上分别比以往最佳结果提升了5.8%和1.5%。该任务评估的是其解释一对句子,并将它们之间的关系分类为“蕴涵”、“矛盾”或“中立”的能力。在与问题回答和常识推理(英语:commonsense reasoning)相关的两个任务上,GPT-1也优于以前的模型,分别在RACE(中学和高中考试题目的数据集)上提升了5.7%,在Story Cloze Test上提升了8.9%。

在语义相似性(又称释义检测)任务方面,GPT-1预测两个句子是否语义对等的能力比以往最佳结果提高了4.2%,该任务使用了Quora问题对(Quora Question Pairs,QQP)数据集。

在使用语言可接受性语料库(Corpus of Linguistic Acceptability,CoLA)进行文本分类任务时,GPT-1获得了45.4分,而以前最好的得分是35.0。在GLUE(一种多任务测试)上,GPT-1获取了72.8的总体得分,优于以前的最好成绩68.9分。


相关

  • 衙役衙门差役(简称衙差、衙役),古代中国吏役名。衙门内实际主管侦缉逮捕、处理管辖地区行政及司法事务的职位或人员。衙门差役于位阶上,与衙门胥吏相同的,都属于没有官品的行政人员,甚
  • 前日军卫戍医院北投分院三军总医院北投分院为中华民国卫生福利部评定优等医院及合格之精神科教学医院,番号818医院,是中华民国台北市北投区的一所中华民国国军医院,主要收治精神科患者,原称三军北投精
  • 巴基斯坦三军情报局巴基斯坦三军情报局(乌尔都语:انٹر سروسز انٹلیجنس‎‎;英语:Directorate for Inter-Services Intelligence,简称ISI)是巴基斯坦最大的情报机关,成立于1948年,其主
  • 陆军总军士长美国陆军总军士长(英语:Sergeant Major of the Army,简称SMA)是美国陆军中一个独特的士官阶级。依照惯例,总军士长在正式礼节上是比大部分的陆军中将相当。。具体的职责因陆军参
  • 理查德·哈密顿理查德·哈密顿(英语:Richard Hamilton,1943年12月19日-),美国数学家,哥伦比亚大学教授。哈密顿毕业于耶鲁大学并于普林斯顿大学取得博士学位,指导教授为Robert Gunning(英语:Robert G
  • 龚晓南龚晓南(1944年10月-),浙江金华人,土木工程学专家。浙江大学土木工程学系教授、博士生导师。1944年10月生于婺城区罗埠镇山下龚村。1958年考入汤溪中学高中部(1960年高中部并入金华
  • 印度尼西亚独立宣言《印度尼西亚独立宣言》(印尼语:Proklamasi Kemerdekaan Indonesia)是苏卡诺和穆罕默德·哈达在1945年8月17日宣读的一份宣言,内容是宣告印度尼西亚共和国(印尼)的独立。虽然印尼
  • 许安世许安世(1040年-1084年),字少张。开封襄邑(今河南睢县)人。生于宋仁宗宝元三年(1040年),少学于丁宝臣,宋英宗治平四年(1067)丁未科状元。调郓州观察推官。熙宁五年(1072年)召为集贤校理。曾写信给苏轼,“吾州有异人,常戴三朵花,莫知其姓名,郡人因以三朵花名之。能作诗,皆神仙意。”。累官至尚书都官员外郎。元丰六年(1083年),其父病逝,弃官奔丧。宋神宗元丰七年(1084年)染疾卒于黄州。苏轼为其助葬。
  • 路易斯·费雷路易斯·费雷,全名路易斯·阿尔伯托·费雷·阿瓜约(Luis Alberto Ferré Aguayo,1904年2月17日-2003年10月21日),波多黎各商人、政治家和慈善家。1969年1月至1973年1月,担任波多黎各总督。路易斯·费雷为波多黎各新进步党主要创始人之一,积极支持波多黎各建州。他也是一位艺术品收藏家,1959年创办了庞塞艺术博物馆。路易斯·费雷生于波多黎各庞塞,后就读于麻省理工学院,并于1924年获得学士学位。
  • 聪明的貉聪明的貉(朝鲜语:령리한 너구리/伶俐한 너구리)是一部1987年由4·26儿童映画摄影所(SEK工作室)制作,并在朝鲜中央电视台播出的朝鲜动画片,该动画播映至2017年,共63话。故事是关于一只聪明的貉Neoguri,它总是与朋友们一起解决各种问题。