首页 >
GB 18030-2005
✍ dations ◷ 2025-04-27 09:57:22 #GB 18030-2005
GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。GB 18030共收录汉字70,244个。GB 18030主要有以下特点:GB 18030在微软视窗系统中的代码页为54936。GB 18030不是一个汉字规范,不定义汉字的写法。中国大陆在此方面的规定由通用规范汉字表管理。GB 18030 的当前版本为 GB 18030-2005。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。
本规格的初版“GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》”是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。在GBK基础上增加了CJK统一汉字扩充A的汉字。此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。:4GB 18030在其标准中以码表形式定义了除去代理对外的全部Unicode码位的定义,因此算得上是一种Unicode的变换格式(UTF)。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和UTF-8相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表。GB 18030—2005与GB18030—2000、GBK相比,去除了很多原来映射在PUA中的编码。后来剩余的24个PUA码位也在Unicode 4.1中加上,如下所示。GB 18030包含三种长度的编码:单字节的ASCII、双字节的GBK(略带扩展)、以及用于填补所有Unicode码位的四字节UTF区块。GBK双字节部分通过查表定义,而四字节部分则根据之前两个部分没有提到的通用字符集码位顺序填补。由于和GBK兼容,GB 18030在搜索ASCII字符时也需要使用特别代码进行判断。一、二字节区块基本就是GBK编码,另外加上了专门的欧元字符、竖排版本的标点符号,以及造字区对Unicode造字区的对应。四字节区块可以视作两段形似GBK二字节区块结构的部分,每段的第一字节可以为0x81到0xFE,第二字节为0x30到0x39。由于结构类似,能够安全于GBK的字符串搜索程序对于GB 18030来说也基本安全(正如基于字节(英语:byte-oriented)的搜索程序对于EUC、UTF-8也基本安全一般。)四字节区块总共可以表达1,587,600(126×10×126×10)种字符,足以覆盖Unicode的1,112,064(17×65536 − 2048个代理对)个有效码位。由于四字节区块通过填空定义,要写出处理这段转换的程序需要同时知道GBK的覆盖范围,并不简单:WHATWG和W3C的GB 18030实现通过一张“位置偏移表”记录GB 18030四字节区中连续的几块碎片,以便高效处理转换。ICU和glibc也都对大块连续的区域使用了类似的策略。
相关
- 自律神经系统自主神经系统(英语:autonomic nervous system,缩写为ANS),又称植物神经系统(vegetative nervous system,VNS)或内脏神经系统(visceral nervous system,VNS),与躯体神经系统共同组成脊椎
- 偏利共生偏利共生(英语:Commensalism,又称为偏利共栖现象)是两种生物间共生关系的一种。是指在生物界中,某两物种间的生态关系,其中一种的生物会因这个关系而获得生存上的利益,但是,另一方的
- 能量转换效率能量转换效率是指一个能量转换设备所输出可利用的能量相对其输入能量的比值。输出的可利用能量可能是电能、机械功或是热量。能量转换效率没有一致的定义,主要和输出能量可利
- 詹姆斯六世詹姆士一世和六世(英语:James I and James VI,1566年6月19日-1625年3月27日),苏格兰国王,称詹姆士六世(英语:James VI),1567年7月24日到1625年3月27日在位,1603年未婚的英格兰女王伊丽莎
- 高鸿钧高鸿钧(1963年8月-),出生于安徽省怀远县,中国凝聚态物理学家,中国科学院院士。1987年,毕业于安徽教育学院(现合肥师范学院)物理系。1991年、1994年先后获北京大学无线电电子学系硕士
- 廷布廷布(宗喀语:.mw-parser-output .uchen{font-family:"Qomolangma-Dunhuang","Qomolangma-Uchen Sarchen","Qomolangma-Uchen Sarchung","Qomolangma-Uchen Suring","Qomolangm
- 蛋白激酶C结构 / ECOD蛋白激酶C(英语:Protein kinase C,简称PKC,EC编号:2.7.11.13)是一种蛋白质激酶家族,通过将其它蛋白质的丝氨酸/苏氨酸侧链上的羟基磷酸化来调节这些蛋白的活性。而蛋白
- 勒韦约翰·卡尔·戈特弗里德·勒韦(德语:Johann Carl Gottfried Loewe,1796年11月30日-1869年4月20日),德国作曲家,歌唱家。勒韦出生在萨克森的一个小镇,早年从父接受音乐教育。后来曾学
- 重光葵重光葵(日语:重光 葵/しげみつ まもる Shigemitsu Mamoru,1887年7月29日-1957年1月26日),日本在二战结束时的外务大臣,活跃于第一次世界大战以后至第二次世界大战中日韩满洲国政坛
- 自责自责,是一种因个人失误所产生有关不满、厌恶、痛苦及后悔等反应的感觉或情感,同时伴随着为该失误感到不值得或不正义的觉察或感受,且怀有对于最终心智满足(德语:Zufriedenheit)或