GB 18030

✍ dations ◷ 2025-09-13 16:08:28 #GB 18030

GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。

GB 18030主要有以下特点:

GB 18030在微软Windows系统中的代码页为54936。

GB 18030不是一个汉字规范,不定义汉字的写法。中国大陆在此方面的规定由《通用规范汉字表》管理。

本规格第一版 GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》”是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布和实施。该标准在GBK基础上增加了CJK统一汉字扩充A的汉字。

本规格第二版为 GB 18030-2005《信息技术 中文编码字符集》,为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。GB 18030-2005 共收录汉字70,244个。此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。:4

GB 18030 的第三版本,且最新版本为 GB 18030-2022《信息技术 中文编码字符集》,为国家市场监督管理总局和国家标准化管理委员会于2022年7月19日发布、2023年8月1日实施。此版本在保留总体结构的基础上,从条文强制改为全文强制,但增加了“实现的级别”一章,定义了三个实现级别,并要求“任何本文件使用的产品均应满足实现级别1”,与上一版的“部分强制”相比,实际要求“增加四字节编码部分的CJK统一汉字”的 66 字。另外,该版本完整覆盖 2013 年发布的《通用规范汉字表》,在资料性附录E中明确了《通用规范汉字表》8105 个汉字的代码位置,并规定要通过“实现级别2”来支持。

GB 18030在其标准中以码表形式定义了除去代理对外的全部Unicode码位的定义,因此算得上是一种Unicode的变换格式(UTF)。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和UTF-8相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表。

GB 18030—2005与GB 18030—2000、GBK相比,去除了很多原来映射在PUA中的编码;后来剩余的24个PUA码位也在Unicode 4.1中加上。

在GB 18030—2022中,剩余的24个PUA码位已经被去除或更改对应,所有有意义字符都已经映射到正式的 Unicode 码位上。

GB 18030包含三种长度的编码:单字节的ASCII、双字节的GBK(略带扩展)、以及用于填补所有Unicode码位的四字节UTF区块。GBK双字节部分通过查表定义,而四字节部分则根据之前两个部分没有提到的通用字符集码位顺序填补。由于和GBK兼容,GB 18030在搜索ASCII字符时也需要使用特别代码进行判断。

一、二字节区块基本就是GBK编码,另外加上了专门的欧元字符、竖排版本的标点符号,以及造字区对Unicode造字区的对应。四字节区块可以视作两段形似GBK二字节区块结构的部分,每段的第一字节可以为0x81到0xFE,第二字节为0x30到0x39。由于结构类似,能够安全于GBK的字符串搜索程序对于GB 18030来说也基本安全(正如基于字节(英语:byte-oriented)的搜索程序对于EUC、UTF-8也基本安全一般。)

四字节区块总共可以表达1,587,600(126×10×126×10)种字符,足以覆盖Unicode的1,112,064(17×65536 − 2048个代理对)个有效码位。

由于四字节区块通过填空定义,要写出处理这段转换的程序需要同时知道GBK的覆盖范围,并不简单:

U+00DE (Þ) → 81 30 89 37U+00DF (ß) → 81 30 89 38U+00E0 (à) → A8 A4U+00E1 (á) → A8 A2U+00E2 (â) → 81 30 89 39U+00E3 (ã) → 81 30 8A 30

WHATWG和W3C的GB 18030实现通过一张“位置偏移表”记录GB 18030四字节区中连续的几块碎片,以便高效处理转换。ICU和glibc也都对大块连续的区域使用了类似的策略。

相关

  • 盖仑克劳狄乌斯·盖伦(129年-200年)是一位古罗马的医学家及哲学家。他的见解和理论在他身后的一千多年里是欧洲起支配性的医学理论。出生于别迦摩,逝世于罗马。盖伦出生于一个建筑师
  • 磷酸铝磷酸铝(化学式:AlPO4)是一种无机化合物,用途包括在玻璃生产过程中充当助熔剂,作陶瓷或牙齿的黏合剂,以及作为添加剂加入于润肤剂、防火涂料、导电水泥等物料之中。磷酸铝可以通过
  • 日间日,一般指地球日,是时间单位。“日”有时指每周的星期日。口语中,“日”或者“天”有时也可能特指白昼,即不包括夜晚之半日时间。除了一日24小时(86,400秒)之外,基于地球绕其自转轴
  • 香川照之蓝丝带奖: 2000年助演男优赏(《苏瑞》) 2006年助演男优赏(《摇摆》) 日本电影金像奖: 2004年优秀助演男优赏(《赤月》) 2005年优秀助演男优赏(《北之零年》) 2006年优秀助演男优赏(《摇
  • 伊南娜其他传说伊南娜(Inanna,楔形文字:�� DMUŠ3)亦称做伊丝塔(Ishtar)、阿斯塔蒂(Astarte),是苏美尔神话系统里面的“圣女”、“天之女主人”,主司性爱、繁殖和战争,也是金星的代表神,和希腊
  • 不抛弃、不放弃“不抛弃、不放弃”是出自2007年电视剧《士兵突击》里的一句台词。2008年5月,汶川大地震后,成为鼓励救援行动的格言。
  • 冯丹宇冯丹宇(1962年-)安徽巢县人,中国人民解放军海军中将。冯丹宇毕业于大连舰艇学院,曾先后在中国人民解放军海军北海舰队某部、国防科工委工作。2003年,任中国人民解放军总装备部军兵
  • 交点年交点年(英文:draconic year),又称食年(英文:eclipse year),是太阳沿着黄道连续两次经过同一黄白交点(升交点)所需时间,其长度为346.6200日。由于黄白交点每年西移20°,因此,交点年相应地
  • 佐伊·考德威尔佐伊·考德威尔(英语:Zoe Caldwell,1933年9月14日-2020年2月16日),女,澳大利亚演员。曾获得托尼奖最佳话剧女主角。
  • 步璿步璿(?-?),临淮淮阴人。三国时东吴将领,丞相步骘孙,步协之子。步协死后,步璿的兄长步玑袭爵为临湘侯。凤凰元年(272年),吴帝孙皓征召步璿叔父步阐为绕帐督,步阐因为自父亲开始已长驻西陵,如今却被征召离开,担心是被指失职以及会有处罚,于是据西陵投降西晋,并派步璿去洛阳为质。西晋因而任步璿为给事中、宣威将军,封都乡侯。孙皓派陆抗攻西陵,同年破城,包括步玑、步阐在内步氏一族几被夷灭,只有步璿因在洛阳,得以幸免。