GB 18030-2000

✍ dations ◷ 2025-08-10 17:43:48 #GB 18030-2000
GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。GB 18030共收录汉字70,244个。GB 18030主要有以下特点:GB 18030在微软视窗系统中的代码页为54936。GB 18030不是一个汉字规范,不定义汉字的写法。中国大陆在此方面的规定由通用规范汉字表管理。GB 18030 的当前版本为 GB 18030-2005。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。 本规格的初版“GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》”是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。在GBK基础上增加了CJK统一汉字扩充A的汉字。此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。:4GB 18030在其标准中以码表形式定义了除去代理对外的全部Unicode码位的定义,因此算得上是一种Unicode的变换格式(UTF)。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和UTF-8相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表。GB 18030—2005与GB18030—2000、GBK相比,去除了很多原来映射在PUA中的编码。后来剩余的24个PUA码位也在Unicode 4.1中加上,如下所示。GB 18030包含三种长度的编码:单字节的ASCII、双字节的GBK(略带扩展)、以及用于填补所有Unicode码位的四字节UTF区块。GBK双字节部分通过查表定义,而四字节部分则根据之前两个部分没有提到的通用字符集码位顺序填补。由于和GBK兼容,GB 18030在搜索ASCII字符时也需要使用特别代码进行判断。一、二字节区块基本就是GBK编码,另外加上了专门的欧元字符、竖排版本的标点符号,以及造字区对Unicode造字区的对应。四字节区块可以视作两段形似GBK二字节区块结构的部分,每段的第一字节可以为0x81到0xFE,第二字节为0x30到0x39。由于结构类似,能够安全于GBK的字符串搜索程序对于GB 18030来说也基本安全(正如基于字节(英语:byte-oriented)的搜索程序对于EUC、UTF-8也基本安全一般。)四字节区块总共可以表达1,587,600(126×10×126×10)种字符,足以覆盖Unicode的1,112,064(17×65536 − 2048个代理对)个有效码位。由于四字节区块通过填空定义,要写出处理这段转换的程序需要同时知道GBK的覆盖范围,并不简单:WHATWG和W3C的GB 18030实现通过一张“位置偏移表”记录GB 18030四字节区中连续的几块碎片,以便高效处理转换。ICU和glibc也都对大块连续的区域使用了类似的策略。

相关

  • 清华大学医学院清华大学医学院,是清华大学直属的一个学院,成立于2001年,第一任院长是两院院士吴阶平。2016年9月,董晨教授担任医学院院长。清华医学院下设基础医学系、临床医学院、生物医学工
  • 精细胞配子(英语:Gamete)是单倍体细胞,它由行有性生殖的生物在特定的器官通过减数分裂产生。两性配子通过配子结合 产生合子。有性生殖的好处是遗传讯息的重组,这也是物种内遗传信息的
  • 道光道光(满语:ᡩᠣᡵᠣᡝᠯᡩᡝᠩᡤᡝ,穆麟德:doro eldengge,太清:doro eldengge;蒙古语:.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag
  • 结构基因结构基因(英语:structural gene)是指基因编码的产物为调节因子(调控基因)以外的蛋白质的基因,可以用于编码结构蛋白、酶或不涉及调控的非编码RNA。这些基因对细胞的形态和功能特征
  • 鞠 躬鞠躬(1929年11月22日-),原籍安徽绩溪,生于上海。中国神经科学家,中国科学院院士(1991年当选)。现为第四军医大学教授,曾任中国人民解放军神经科学研究所所长。
  • 委婉语委婉,是指不直接了当的表达本意,只用曲折的言词烘托或暗示本意的一种表达方式。此用法在修辞学中称为婉曲,可分为曲折、微辞、吞吐、含蓄四类。用于委婉修辞的字或词通常只会取
  • 聚乙二醇聚乙二醇(PEG),也称为聚环氧乙烷(PEO)或聚氧乙烯(POE),是指环氧乙烷的寡聚物或聚合物。这三个名称现今一般为同义词,但历史上聚乙二醇往往是指分子质量低于20,000 g/mol的低聚物和聚
  • 能级能级(英语:Energy level)理论是一种解释原子核外电子运动轨道的一种理论。它认为电子只能在特定的、分立的轨道上运动,各个轨道上的电子具有分立的能量,这些能量值即为能级。电子
  • 崇陵崇陵,可以指:
  • 质量摩尔浓度在化学中,溶液的重量摩尔浓度(也可称质量摩尔浓度或重量克分子浓度,英语:molality,用b或m表示)是指溶质物质的量 n s