大型语言模型

✍ dations ◷ 2025-02-28 23:42:56 #大型语言模型

大语言模型 (英语:large language model,LLM) 是一种语言模型,由具有许多参数(通常数十亿个权重或更多)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。大型语言模型在2018年左右出现,并在各种任务中表现出色。

尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习模型。大型语言模型是通用的模型,在广泛的任务中表现出色,而不是针对一项特定任务(例如情感分析、命名实体识别或数学推理)进行训练。

尽管在预测句子中的下一个单词等简单任务上接受过训练,但发现具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法和语义。 此外大型语言模型展示了相当多的关于世界的常识,并且能够在训练期间“记住”大量事实。



相关

  • 地名学地名学(toponymy)是研究地名由来、语词构成、含义、演变、分布规律、读写标准化和功,以及地名与自然和社会环境之间关系之学,它是地理学一个分支学科。地名研究历史悠久,中国东汉
  • 龚自珍龚自珍小像龚自珍(1792年8月22日-1841年9月26日),字璱人,号定盦。曾字尔玉 ,曾更名易简,字伯定,再更名为巩祚。浙江仁和(今杭州)人。清朝中后期著名思想家、文学家。龚自珍生于乾隆五
  • 食肉齿裂肉齿(英语:Carnassial),又名食肉齿或简称裂齿,是肉食动物用来撕开猎物的牙齿。 裂肉齿都有上下一对,可能是其中一颗臼齿或小臼齿,其体积较其他臼齿为大。而且裂肉齿有尖锐的边缘,
  • 卡斯特纳的凶手第二次世界大战卡斯特纳的凶手,又名阿拉斯加斥候,是阿拉斯加第一作战情报排的别名。他们在第二次世界大战太平洋战争中的阿留申群岛战役帮助美军击败日本。此部队由65人组成,在
  • 矮子当道《矮子当道》(英语:)是一本由美国小说作家埃尔莫尔·伦纳德所写的1990年小说。1995年,该小说被改编成英文同名电影《关人矮事》,以及在2017年被改编成同名电视剧《矮子当道(英语:Ge
  • 德国无障碍阅读中心德国无障碍阅读中心(德语:Deutsches Zentrumfürbarrierefreies Lesen;英语:German Centre for Accessible Reading,简称dzb lesen),原名德国中央盲人图书馆(德语:Deutsche Zentralb
  • 迈恩费尔德迈恩费尔德(德语:Maienfeld)是瑞士联邦格劳宾登州兰德夸特区(德语:Region Landquart)下辖的市镇,位于法尔科尼斯山(德语:Falknis)的山脚下,面积为32.33平方公里,海拔高度为504米,2017年12月31日人口为2,860。迈恩费尔德是约翰娜·施皮里的小说《海蒂》中主人公海蒂的家乡。城镇四周遍布着葡萄园。
  • 奥托·贝克尔奥托·贝克尔(德语:Otto Becker,1958年12月3日-),德国男子马术运动员。他曾代表德国参加1992年、2000年和2004年夏季奥林匹克运动会马术比赛,共获得一枚金牌和一枚铜牌。
  • Oops (Linux内核)oops是Linux内核发生不正确的行为并产生一份错误报告。多种类型的oops导致众所周知的内核错误,但部分oops也允许继续操作,但可靠度会打折扣。这个术语仅仅代表了一个简单的错误。当核心检测到问题时,它会打印一个oops消息然后杀死全部相关行程。oops消息可以帮助Linux核心工程师进行调试,检测oops出现的条件,并修复导致oops的程序错误。Linux官方核心文件中提到的oops消息被放在核心源代码Documentation/oops-tracing.txt中。部分记录程序的设置可能会影响收集o
  • 拉丁字母扩展附加拉丁字母扩展附加是一个位于基本多文种平面的Unicode区块,包含了256个拉丁字母字符。本区块中的字符大多是拉丁字母与一个或多个附加符号的组合,其中有90个用于越南语国语字,还有一些中世纪字符。另外,大写的ß(.mw-parser-output .monospaced{font-family:"Menlo","Consolas","Liberation Mono","Courier New",monospace}U+1E9E ẞ .mw-parser-output .smallcaps-all{font