GB 18030

✍ dations ◷ 2025-11-14 18:14:57 #GB 18030

GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。

GB 18030主要有以下特点:

GB 18030在微软Windows系统中的代码页为54936。

GB 18030不是一个汉字规范,不定义汉字的写法。中国大陆在此方面的规定由《通用规范汉字表》管理。

本规格第一版 GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》”是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布和实施。该标准在GBK基础上增加了CJK统一汉字扩充A的汉字。

本规格第二版为 GB 18030-2005《信息技术 中文编码字符集》,为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。GB 18030-2005 共收录汉字70,244个。此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。:4

GB 18030 的第三版本,且最新版本为 GB 18030-2022《信息技术 中文编码字符集》,为国家市场监督管理总局和国家标准化管理委员会于2022年7月19日发布、2023年8月1日实施。此版本在保留总体结构的基础上,从条文强制改为全文强制,但增加了“实现的级别”一章,定义了三个实现级别,并要求“任何本文件使用的产品均应满足实现级别1”,与上一版的“部分强制”相比,实际要求“增加四字节编码部分的CJK统一汉字”的 66 字。另外,该版本完整覆盖 2013 年发布的《通用规范汉字表》,在资料性附录E中明确了《通用规范汉字表》8105 个汉字的代码位置,并规定要通过“实现级别2”来支持。

GB 18030在其标准中以码表形式定义了除去代理对外的全部Unicode码位的定义,因此算得上是一种Unicode的变换格式(UTF)。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和UTF-8相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表。

GB 18030—2005与GB 18030—2000、GBK相比,去除了很多原来映射在PUA中的编码;后来剩余的24个PUA码位也在Unicode 4.1中加上。

在GB 18030—2022中,剩余的24个PUA码位已经被去除或更改对应,所有有意义字符都已经映射到正式的 Unicode 码位上。

GB 18030包含三种长度的编码:单字节的ASCII、双字节的GBK(略带扩展)、以及用于填补所有Unicode码位的四字节UTF区块。GBK双字节部分通过查表定义,而四字节部分则根据之前两个部分没有提到的通用字符集码位顺序填补。由于和GBK兼容,GB 18030在搜索ASCII字符时也需要使用特别代码进行判断。

一、二字节区块基本就是GBK编码,另外加上了专门的欧元字符、竖排版本的标点符号,以及造字区对Unicode造字区的对应。四字节区块可以视作两段形似GBK二字节区块结构的部分,每段的第一字节可以为0x81到0xFE,第二字节为0x30到0x39。由于结构类似,能够安全于GBK的字符串搜索程序对于GB 18030来说也基本安全(正如基于字节(英语:byte-oriented)的搜索程序对于EUC、UTF-8也基本安全一般。)

四字节区块总共可以表达1,587,600(126×10×126×10)种字符,足以覆盖Unicode的1,112,064(17×65536 − 2048个代理对)个有效码位。

由于四字节区块通过填空定义,要写出处理这段转换的程序需要同时知道GBK的覆盖范围,并不简单:

U+00DE (Þ) → 81 30 89 37U+00DF (ß) → 81 30 89 38U+00E0 (à) → A8 A4U+00E1 (á) → A8 A2U+00E2 (â) → 81 30 89 39U+00E3 (ã) → 81 30 8A 30

WHATWG和W3C的GB 18030实现通过一张“位置偏移表”记录GB 18030四字节区中连续的几块碎片,以便高效处理转换。ICU和glibc也都对大块连续的区域使用了类似的策略。

相关

  • 马来半岛马来半岛(英语:Malay Peninsula,马来语:Semenanjung Tanah Melayu)位于亚洲大陆最南端,是东南亚中南半岛的一个主要半岛,与苏门答腊岛隔着马六甲海峡,是为太平洋和印度洋的分界线。
  • 积极治疗积极治疗(英文:Curative care)指的是所罹患的疾病因仍有痊愈(英语:Cure)机会,故而以治愈疾病为目的而采取的积极治疗策略。积极治疗与预防性治疗(预防性医疗)及和缓医疗不同。预防性
  • 雪莉酒雪利酒(西班牙语:Jerez .mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Gentiu
  • 总统府中华民国总统府厅舍位于台湾台北市博爱特区,为中华民国总统、副总统以及总统府幕僚单位的办公场所,也是每年元旦及国庆日举行升旗典礼的地点。厅舍建于1919年,建筑风格属辰野金
  • 何平平何平平(1988年7月13日-2010年3月13日)曾是吉尼斯世界纪录上世界最矮小的成年人。何平平身高73 cm(2尺5吋)。何平平生于内蒙古自治区乌兰察布市化德县的一个家庭,排行第三,对上有两
  • 陈永财陈永财 (英语:Tan Eng Chye)是一位新加坡华人数学家。1979年毕业于莱佛士书院,1989年毕业于耶鲁大学。1985年进入新加坡国立大学任职,2003年成为新加坡国立大学理学院院长,2007年
  • 5G新无线5G NR(新无线,英语:New Radio)是一个新的无线接入技术(RAT),由3GPP开发,用于5G(第五代)移动通信网络。它是5G网络空中接口的全球通用标准。3GPP的38系列规范为NR定义了技术细节。3GPP
  • 认证互连设计者认证互连设计者(Certified Interconnect Designer)简称CID,是国际电子工业联接协会(英语:IPC (electronics))(IPC)针对有经验印刷电路板设计专家提出的认证。CID+是CID的进阶版本。
  • 落猫问题落猫问题(falling cat problem)是有关如何解释猫翻正反射(英语:cat righting reflex)背后的物理学,也就是自由落下的猫如何调整自身的姿势,在任意初始姿势的条件下,在着地时都是以脚
  • 沙漠行星在科幻小说中,沙漠行星是指全星只拥有一种气候——即沙漠气候、降水量极少的行星。该类行星在现实世界和科幻作品中均十分常见。在某些作品中,沙漠行星表现出了水利专制统治的