IETF语言标签

✍ dations ◷ 2024-12-23 01:36:50 #IETF语言标签
语言标签是语言代码的缩写表示,例如en表示英语,pt-BR表示巴西葡萄牙语。由互联网工程任务组 (IETF)的“BCP(英语:Best Current Practice) 47”文档系列定义。现在标准化为RFC 5646 (引用了相关的RFC 5645)与RFC 4647, IANA语言子标签登记。使用的各成分来自ISO 639, ISO 15924, ISO 3166-1, UN M.49.这种语言标签用于许多现代的计算标准,包括IETF的互联网协议如HTTP, XML 以及PNG,,SGML,Unicode,ANSI,ECMA。Microsoft的Windows操作系统使用它代替过时的LCID,来表示locale。IETF语言标签的最早版本是1995年3月发布的RFC 1766。使用ISO 639的2字母语言代码,ISO 3166的2字母国家地区代码,允许登记的标签携带variant或书写文字子标签。2001年1月发布RFC 3066, 使用ISO 639-2的3字母语言代码。2006年9月发布RFC 4646 (规范的主体)与RFC 4647 (处理匹配行为)。RFC 4646增加了使用ISO 15924 的4字母书写文字代码与UN M.49的3数字地理分区码。2009年9月发布RFC 5646,引入了3字符码的ISO 639-3与639-5作为语言子标签。语言标签由一个或多个子标签(subtags)组成,用连字号(-)分隔。子标签只能由基本拉丁字母或数字组成。子标签出现顺序:例外情况是x-前缀开头的私用语言标签,向后兼容的grandfathered语言标签(包括i-前缀与以前登记的老的语言标签)。上述未指明的子标签应该小写。实际上整个语言标签是大小写无关的。可选的script与region子标签如果没有提供可辨识信息,则将被忽略。例如拉丁字母拼写的西班牙语es-Latn,日本的日语ja-JP。并不是所有语言区域都有有效的区域子标签:主语言的国内方言区被登记为variant子标签。例如,valencia variant子标签用于加泰罗尼亚语的巴伦西亚语方言。由于该方言几乎只用于西班牙国内,区域子标签ES通常忽略。宏语言(macrolanguage)中的语言代码或者直接用语言子标签表示,如普通话cmn;或者用语言-扩展子标签的组合,如zh-cmn。手语用扩展子标签,前缀为sgn。虽然源自ISO或UN的标准,但并不是严格遵循。特别是ISO 639, ISO 15924, ISO 3166, UN M.49等标准撤回某些编码,甚至改变某些编码所指的时候,RFC 4646规定语言标签仍然保持最初含义不变。RFC 4646之前登记的语言标签现在分为"grandfathered"或"redundant",视其是否满足目前的语法而定。并且是过时的。现在采用ISO 639-3语言子标签。例如,nan取代了zh-min-nan表示闽南语;hak取代了i-hak、zh-hakka表示客家话;ase取代了sgn-US表示美国手语。ISO 639-5使用3字母表示一个语言群中所有的语言。而ISO 639-2使用3字母表示一个语言群中没有独立语言标签的那些语言。例如,ISO 639-2代码afa表示"Afro-Asiatic (Other)",不包含阿拉伯语。而ISO 639-5中的这个代码表示"Afro-Asiatic languages",包含亚非语系所有语言。这一变化发生在2009年。ISO 639-5为了向后兼容ISO 639-2,对于这些老的代码,定义了grouping type attribute。BCP 47定义了"Scope"属性用于语言集子标签的辨别。但是没有定义任何inclusive或exclusive属性,也没有使用ISO 639-5的grouping type attribute。ISO 639-5没有定义哪些语言属于某个语言集。因此RFC 5646不建议使用语言集,除非是那些非特定的语言集,如"Multiple languages"与 "Undetermined"。某些主语言子标签携带了属性"Suppress-Script",通常某个书写系统适用于该语言。因此会忽略script子标签。例如,yi取代了yi-Hebr ,因为意地绪语总是使用希伯来字母书写。另一个例子,zh-Hans-SG可被认为等价于zh-Hans,因为新加坡简体中文与其他简体中文几乎一样。但是,这里的script子标签显然是有意义的。当语言的地区方言有专门的子标签,这比使用地区子标签更优。例如,ar-DZ应该被arq代替来表示阿尔及利亚阿拉伯语。Extension子标签(不要与extended语言子标签混淆)允许附加额外的信息,如locale,calendar,currency。至2014年1月已经分配了两种扩展。2012年2月,Unicode Consortium在RFC 6497发布了Extension T用于语言标签包含信息关于音译(transliterated),转写(transcribed),变换(transformed)。例如,en-t-jp用于从日语翻译到英语。2010年12月,Unicode Consortium在RFC 6067发布了Extension U,允许在Common Locale Data Repository(英语:Common Locale Data Repository)(CLDR)中嵌入了宽属性,表示很多locale数据集。例如:Windows Vista及以后版本,采用RFC 4646作为locale标签,字符串最大长度85,包含了结尾的零字符。只有语言子标签,称为中立locale(neutral locale)。加上地区子标签,称为specific locale。格式为<language>-<Script>-<REGION>,例如"uz-Latn-UZ"表示乌兹别克斯坦的使用拉丁字母的乌兹别克语。排序规则应写为<language>-<Script>-<REGION>_<sort order>

相关

  • 死刑犯死刑犯(英语:Death row,或称死囚、死刑囚犯)常指被司法宣判为死刑,而尚未被处决的犯人。他们被监禁在监狱中(中国大陆、台湾及日本的死刑犯则是囚禁在看守所内),等待死刑的执行。但
  • 体循环体循环(又称为大循环)是心血管循环系统中,携带充氧血离开心脏,进入身体各部位进行气体交换及运输养分后,将缺氧血带回心脏的部分。相对于体循环的另一种血液循环则称为肺循环(又称
  • span style=color:black;北莱茵-威斯特法伦/span北莱茵-威斯特法伦(德语:Nordrhein-Westfalen),位于德国西部,总人口超过1800万,是德国人口最多的联邦州。总面积34080平方公里,首府杜塞尔多夫。该州与比利时及荷兰接壤。莱茵-鲁尔
  • 台1戊线台1线,又称纵贯公路、西部干线,是台湾西部一条南北向的省道,自清代就是纵贯南北的交通要道。北起台北市忠孝西路、中山南路口(行政院大门前,台湾公路原点和与台3线共线起点,台1甲
  • 膀胱阴道瘘膀胱阴道瘘(英语:Vesicovaginal fistula),是一类妇科、泌尿疾病,指生殖道与泌尿道之间有异常通道,尿液自阴道排出,不能控制。多见于难产、产伤,手术损伤、肿瘤转移及盆腔放射疗法副
  • 让·德·拉特尔·德·塔西尼法国第1集团军让·约瑟夫·马里·加布里埃尔·德·拉特尔·德·塔西尼,GCB,MC(法语:Jean Joseph Marie Gabriel de Lattre de Tassigny,1889年2月2日-1952年1月11日),法国著名将领,其
  • 蛇河谷斯内克河(英语:Snake River,也译作蛇河),是美国西北部一条主要河流,也是哥伦比亚河最大的支流。斯内克河发源于怀俄明州黄石公园附近,向西流经斯内克河峡谷进入爱达荷州。由东向西
  • 吉兹语吉兹语(/ˈɡiːɛz/; ግዕዝ、Ge'ez,亦作Gi'iz、Gəʾəz,IPA标音:;ISO 639-2:gez)也称埃塞俄比亚语,是一种古代的语言,现在只作宗教用途。这种语言在东非洲的非洲之角、埃塞俄比亚
  • Natural History Museum of Los Angeles Countyhttp://www.nhm.org/洛杉矶县自然历史博物馆(Natural History Museum of Los Angeles County)是美国西部最大的自然历史博物馆,位于洛杉矶县洛杉矶,馆藏包括3500万份标本和手工
  • 新型冠状病毒肺炎 (消歧义)新型冠状病毒肺炎(英语:Novel coronavirus pneumonia,简称新冠肺炎),又称冠状病毒病(英语:Coronavirus disease,缩写:COVID),即由新型冠状病毒所引起的肺炎。可以指: