GB 18030

✍ dations ◷ 2025-06-09 00:11:09 #GB 18030

GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。

GB 18030主要有以下特点:

GB 18030在微软Windows系统中的代码页为54936。

GB 18030不是一个汉字规范,不定义汉字的写法。中国大陆在此方面的规定由《通用规范汉字表》管理。

本规格第一版 GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》”是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布和实施。该标准在GBK基础上增加了CJK统一汉字扩充A的汉字。

本规格第二版为 GB 18030-2005《信息技术 中文编码字符集》,为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。GB 18030-2005 共收录汉字70,244个。此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。:4

GB 18030 的第三版本,且最新版本为 GB 18030-2022《信息技术 中文编码字符集》,为国家市场监督管理总局和国家标准化管理委员会于2022年7月19日发布、2023年8月1日实施。此版本在保留总体结构的基础上,从条文强制改为全文强制,但增加了“实现的级别”一章,定义了三个实现级别,并要求“任何本文件使用的产品均应满足实现级别1”,与上一版的“部分强制”相比,实际要求“增加四字节编码部分的CJK统一汉字”的 66 字。另外,该版本完整覆盖 2013 年发布的《通用规范汉字表》,在资料性附录E中明确了《通用规范汉字表》8105 个汉字的代码位置,并规定要通过“实现级别2”来支持。

GB 18030在其标准中以码表形式定义了除去代理对外的全部Unicode码位的定义,因此算得上是一种Unicode的变换格式(UTF)。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和UTF-8相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表。

GB 18030—2005与GB 18030—2000、GBK相比,去除了很多原来映射在PUA中的编码;后来剩余的24个PUA码位也在Unicode 4.1中加上。

在GB 18030—2022中,剩余的24个PUA码位已经被去除或更改对应,所有有意义字符都已经映射到正式的 Unicode 码位上。

GB 18030包含三种长度的编码:单字节的ASCII、双字节的GBK(略带扩展)、以及用于填补所有Unicode码位的四字节UTF区块。GBK双字节部分通过查表定义,而四字节部分则根据之前两个部分没有提到的通用字符集码位顺序填补。由于和GBK兼容,GB 18030在搜索ASCII字符时也需要使用特别代码进行判断。

一、二字节区块基本就是GBK编码,另外加上了专门的欧元字符、竖排版本的标点符号,以及造字区对Unicode造字区的对应。四字节区块可以视作两段形似GBK二字节区块结构的部分,每段的第一字节可以为0x81到0xFE,第二字节为0x30到0x39。由于结构类似,能够安全于GBK的字符串搜索程序对于GB 18030来说也基本安全(正如基于字节(英语:byte-oriented)的搜索程序对于EUC、UTF-8也基本安全一般。)

四字节区块总共可以表达1,587,600(126×10×126×10)种字符,足以覆盖Unicode的1,112,064(17×65536 − 2048个代理对)个有效码位。

由于四字节区块通过填空定义,要写出处理这段转换的程序需要同时知道GBK的覆盖范围,并不简单:

U+00DE (Þ) → 81 30 89 37U+00DF (ß) → 81 30 89 38U+00E0 (à) → A8 A4U+00E1 (á) → A8 A2U+00E2 (â) → 81 30 89 39U+00E3 (ã) → 81 30 8A 30

WHATWG和W3C的GB 18030实现通过一张“位置偏移表”记录GB 18030四字节区中连续的几块碎片,以便高效处理转换。ICU和glibc也都对大块连续的区域使用了类似的策略。

相关

  • 苗瑶语族苗瑶语是苗、瑶、畲等族群所使用的有共同来源的一些语言的总称。学术界对于苗瑶语的语言系属分类有不同看法:华人和中国学者多认为苗瑶语是属于汉藏语系的语族,即苗瑶语族;欧美
  • 比利时法语社区法语社群(Communauté française),又称瓦隆-布鲁塞尔联盟(Fédération Wallonie-Bruxelles),是比利时三个社群之一。法语社群的意思是使用法语的比利时人;并成立代表比利时法语居
  • 丘布特省丘布特省(Chubut)为南美国家阿根廷二十三省之一,位于阿根廷中部(如右图之5位置),该省首府为罗森。1自治市坐标:43°18′S 65°06′W / 43.300°S 65.100°W / -43.300; -65.100
  • ATC代码 (B)ATC代码B(血液及造血器官)是解剖学治疗学及化学分类系统的一个分类,这是由世界卫生组织药物统计方法整合中心(The WHO Collaborating Centre for Drug Statistics Methodology)所
  • 欧仁·查理·卡特兰欧仁·夏尔·卡特兰(法语:Eugène Charles Catalan,1814年5月30日-1894年2月14日) 是法国 和 比利时 数学家。卡特兰是一位法国珠宝商的独子,1814年出生于比利时。1825年,他旅居巴
  • 国武丰喜国武丰喜(日语:国武 豊喜/くにたけ とよき ,1936年2月16日-),日本化学家,现任九州大学高等研究员特别主干教授。瑞宝重光章、紫绶褒章及文化勋章表彰。文化功劳者。国武教授是分子
  • 成始终成始终(1403年-?),字敬之,直隶常州府无锡县人,明朝政治人物。应天府乡试第三十六名。正统四年(1439年)己未科进士,授行人司行人,升监察御史。土木之变期间,督兵紫荆关,守要害地。累官湖广
  • 新井素子新井素子(日语:新井素子,1960年8月8日-),日本小说家,日本SF作家俱乐部第15代会长,日本推理作家协会会员。生于东京都练马区。祖父、外公及双亲都曾在讲谈社工作,家中藏书丰富,从小就阅
  • Sonic FoundrySonic Foundry是美国的多媒体套装软件开发公司。2003年,索尼旗下的Sony Creative Software(英语:Sony Creative Software)收购部分产品线。这部分产品线又于2016年被索尼售予Mag
  • 2017年土库曼斯坦总统选举库尔班古力·别尔德穆哈梅多夫土库曼斯坦民主党库尔班古力·别尔德穆哈梅多夫土库曼斯坦民主党2017年土库曼斯坦总统选举在2017年2月12日举行,自2007年起任总统的库尔班古力·别尔德穆哈梅多夫争取第3度连任,最终以97.69%的得票率成功连任。2016年9月,土库曼斯坦宪法(英语:Constitution of Turkmenistan)作出修订,删除总统候选人任期限制和70岁的年龄限制,并将总统任期从五年延长到七年。土库曼斯坦总统采用两轮选举制选出。截至2016年12月,时任总统库尔班古力·别尔德穆哈