大型语言模型

✍ dations ◷ 2025-07-13 23:06:02 #大型语言模型

大语言模型 (英语:large language model,LLM) 是一种语言模型,由具有许多参数(通常数十亿个权重或更多)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。大型语言模型在2018年左右出现,并在各种任务中表现出色。

尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习模型。大型语言模型是通用的模型,在广泛的任务中表现出色,而不是针对一项特定任务(例如情感分析、命名实体识别或数学推理)进行训练。

尽管在预测句子中的下一个单词等简单任务上接受过训练,但发现具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法和语义。 此外大型语言模型展示了相当多的关于世界的常识,并且能够在训练期间“记住”大量事实。



相关

  • 化学过程化学过程(英文:Chemical process)在科学上是一种改变一个或多个化学物质或化合物的手段。这类过程的发生,可能由自身或外在所引起,并且涉及某种形式的化学反应。就工程学而言,一个
  • A31高速公路 (意大利)A31高速公路(意大利语:Autostrada A31),又称阿斯蒂科谷高速公路(Autostrada della Val d'Astico/Valdastico),是意大利一条高速公路,由维琴察至皮奥韦内-罗彻特,全长35.6公里。全公路
  • 桂林德智外国语学校桂林德智外国语学校(英语:Guilin DeZhi Foreign Languages School;缩写:GDFLS)创建于1937年,是一所位于广西壮族自治区桂林市秀峰区的公立初中,坐落在风景美丽的桃花江畔,是“百校工
  • 卡罗琳·李·拉齐维尔卡罗琳·李·拉齐维尔(英语:Caroline Lee Radziwill,一般被大众称作,1933年3月3日-2019年2月15日)是美国社交名媛、公关及室内设计师。她的姐姐杰奎琳是美国第35任总统约翰·肯尼
  • 食冻面食冻面,笔名取自Stoneman的谐音,创作种类包括搞笑小说、游戏小说、剧情小说、趣味贴图等。 食冻面的成名作是《正妹大学宅男社》,出版后被高价买下影视版权,经改编后拍成电影“
  • 再见菲律宾《再见菲律宾》(Adieu Philippine)是法国导演贾克·侯吉耶于1962年的电影作品,在第15届戛纳影展国际影评人周单元中放映,被认为是法国新浪潮的代表电影之一。米歇尔(Jean-Claude
  • 杨朝相杨朝相(1881年-1964年),又名超象、扶青、辅卿,山西省临汾县人,毕业于山西西学专斋化学科,宣统三年进士。
  • AsanaAsana (/əˈsɑːnə/,而不是 ) 是一个网络和移动应用,它的设计是为了改善团队交流和协作的方式。2008年达斯廷·莫斯科维茨离开Facebook,与贾斯丁·罗森斯
  • 山姆·阿尔特曼山姆·H·奥特曼(英语:Samuel H. Altman,1985年4月22日-)是一名美国企业家、投资者、程序员和博主。 他亦是OpenAI的首席执行官,以及Y Combinator的前总裁。
  • 花下游乐图《花下游乐图》(日语:花下遊楽図),屏风,狩野长信(日语:狩野長信)(狩野永德之弟)所画,以水墨画的技法,表现在八角堂缘上,贵公子前舞蹈的妇女,和盛开之樱花下的贵夫人。