基于转换器的生成式预训练模型

✍ dations ◷ 2025-08-23 23:01:30 #基于转换器的生成式预训练模型

基于转换器的生成式预训练模型(Generative pre-trained transformers, GPT)是一种延伸自转换器架构(Transformer)的自然语言生成模型。它可以进行微调以完成各种自然语言处理任务,例如文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等。基于大量语料数据上训练,以生成类似于人类自然语言的文本。其名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程,其中模型学习预测文章中下一个单词,这为模型在具有限量的任务特定数据的下游任务中表现良好提供了坚实的基础。

2018年6月11日,OpenAI发表了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,在其中介绍了“基于转换器的生成式预训练模型”(GPT)。当时,表现最好的自然语言生成模型主要依靠大量手动标注数据的监督学习。这种依赖于人类监督学习的开发途径限制了模型在未经精细标注的数据集上的应用;许多语言(例如斯瓦希里语或海地克里奥尔语)也因缺乏能建立起语料库的文本资料而造成实际应用(如翻译和解释)上的困难;此外,训练超大模型相当耗时且开支非常昂贵。

相比之下,GPT提出了一种“半监督(semi-supervised)”(后来普遍改称为“自监督”)的方法——先在没有标号的数据上面训练一个预训练模型,再在少量标号数据上面训练一个分辨的微调模型。

相关

  • 美分美分可以指:
  • 沃尔特·米歇尔沃尔特·米歇尔(英语:Walter Mischel,1930年2月22日-2018年9月12日),美国人格与社会心理学家。他主要研究人格的结构、过程和发展,自我控制以及人格差异等领域。据2002年美国《普通
  • 450110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学210 农学 220 林学 230 畜牧、兽医科学 240 水产学310 
  • UDP用户数据报协议(英语:User Datagram Protocol,缩写:UDP;又称用户数据包协议)是一个简单的面向数据报的通信协议,位于OSI模型的传输层。该协议由David P. Reed(英语:David P. Reed)在19
  • 有情有情(梵语:सत्त्व;IAST:sattva)或有情众生,乃佛教术语,音译为萨埵、萨多波,旧译为众生,或称为含识,即一切有心识、有感情、有见闻觉知之生命体。相对于有情,草木、土石、山河、大
  • 市中心 (新加坡)中区新加坡中央社区发展理事会惹兰勿刹集选区市中心(英语:Downtown Core、马来语:Pusat Bandar Kor、泰米尔语:டவுன்டவுன் கோர்)是新加坡历史与城市中心,位于55个规
  • 气旋若亚敬气旋若亚敬(英语:Cyclone Joachim ),是一股在2011年12月中旬造成西欧地区重大破坏的温带气旋,其在法国多姆山省测得高达212千米每小时(59米每秒;132英里每小时)的最大阵风。若亚敬在
  • 法奥战役法奥战役是伊拉克战争最早的一场战斗之一。在伊拉克战争中联军最初的一批目标就有在伊拉克军队对位于法奥半岛上的采油设施进行破坏之前完整地夺取这些设施。这能够避免像1991年海湾战争中发生的生态危机再次发生,并且能够让伊拉克更快地恢复石油出口,这对于战争之后伊拉克的重建工作非常重要。按计划,英国皇家海军陆战队第三突击旅在同一时间攻占乌姆盖斯尔,这样一旦Khawr Abd Allah航道被联军清除完水雷之后,国际社会就能够通过伊拉克唯一的深水港向该国提供人道主义援助物资。第三突击旅得到了美国海军陆战队第15远征部
  • 小米手机5小米手机5是小米科技于北京时间2016年2月24日下午2时在北京国家会议中心发布的一款Android智能手机。小米手机5在后盖材质上分为了“曲面玻璃”和“曲面陶瓷”两种版本,陶瓷版仅限尊享版配置,在机身侧面使用了与机身整体相同的颜色的金属框架。在正面机身上小米手机5使用了平面无边框设计,并在小米手机系列首次使用实体按键作为底部的Home按键。小米手机5搭载了高通骁龙820处理器,但在标准版上使用的是同系列处理器中的降频版。运行内存方面,标准版、高配版使用3G运行内存,尊享版使用4G运行内存。显示屏大小为5
  • 阿道夫·菲克阿道夫·欧根·菲克(德语:Adolf Eugen Fick,1829年9月3日-1901年8月21日),是一位出生于德国的医生和生理学家。马尔堡大学的解剖学教授弗朗兹·路德维克·菲克(英语:Franz Ludwig Fick)的学生。1840年出版了一本书叫《Compendium de Physiologie Humaine》,于1855年提出一项扩散作用,命名为菲克定律。该定律以他的名字为名。1829年9月3日,菲克出生于德国卡塞尔,上大学时,他就读于马尔堡大学医学博士学位,毕业候他开始了检察官的工作。