GB 2312

✍ dations ◷ 2025-05-20 22:21:58 #GB 2312

GB/T 2312,GB/T 2312–80 或 GB/T 2312–1980 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常简称GB(“国标”汉语拼音首字母),又称GB0,由中国国家标准总局于1980年发布,1981年5月1日实施。GB/T 2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB/T 2312。

GB/T 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。

GB/T 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB/T 2312不能处理,因此后来GBK及GB 18030汉字字符集相继出现以解决这些问题。

GB/T 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号,共计94个区。用所在的区和位来表示字符(实际上就是码位),因此称为区位码(或许叫“区位号”更为恰当)。表示方式也称为区位码。例如“万”字在45区82位,所以“万”字的区位码是:45 82(注意,GB类汉字编码为双字节编码,因此,45相当于高位字节,82相当于低位字节)。

为了避开ASCII字符中的CR0不可显示字符(十六进制为0 ~ 1F,十进制为0 ~ 31)及空格字符0010 0000(十六进制为20,十进制为32),国标码(又称为交换码)规定表示汉字双字节编码范围为十六进制为(21,21) ~ (7E,7E),十进制为(33,33) ~ (126,126) 。因此,须将“区码”和“位码”分别加上32(十六进制为20H),作为国标码。以避免与ASCII字符中0~32的不可显示字符和空格字符相冲突。

例如: “万”字的国标码十进制为:(45+32,82+32) = (77,114),十六进制为:(4D,72H)。

国标码和通用的ASCII码冲突。把国标码中的每个字节的最高位都从0换成1,即相当于每个字节都再加上128(十六进制为80,即80H;二进制为1000 0000),从而得到国标码的“机内码”表示,简称“内码”。

在使用GB/T 2312的程序通常采用EUC储存方法,以便兼容于ASCII。这种格式称为EUC-CN。浏览器编码表上的“GB2312”就是指这种表示法。

每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”,第二个字节称为“低位字节”。

“高位字节”使用了0xA1–0xF7(把01–87区的区号加上0xA0),“低位字节”使用了0xA1–0xFE(把01–94加上0xA0)。由于一级汉字从16区起始,汉字区的“高位字节”的范围是0xB0–0xF7,“低位字节”的范围是0xA1–0xFE,占用的码位是72*94=6768。其中有5个空位是D7FA–D7FE。

例如“啊”字在大多数程序中,会以两个字节,0xB0(第一个字节)0xA1(第二个字节)储存。(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

GB 5007.1–85《信息交换用汉字 24x24 点阵字模集》首次附录对 GB/T 2312 之更正,包括:

GB/T 2312 本身一直未有修订,但此等修订部分收入相关字模集(下详)、GB/T 12345、后续之 GBK 及 GB 18030。

GB/T 2312 亦用于 ISO-IR-165。

有两种不同的GB/T 2312实现,在它们之间存在少量的差别,其中至少有一个是错误的。

GBK子集与GBK/GB 18030兼容,GB2312.TXT则不兼容。后者基于ftp.unicode.org曾经提供的GB2312.TXT实现,于2011年由官方弃用,2016年9月时已无原文件踪迹。此外还有很多种厂商实现。

截至2015年 (2015-Missing required parameter 1=!),微软.NET使用的是“GBK子集”实现。ICU(英语:International Components for Unicode)、libiconv-1.14、php-5.6、ActivePerl-5.20、Java 1.7、Python 3.4都使用“GB2312.TXT”实现。Ruby 2.2兼容两者编码,但内部使用“GBK子集”实现。W3C的编码技术指南规定,应将gb2312字节流视为GBK编码,与GB18030一并使用同一解码器解码。

相关

  • 质体外途径质外体(英语:apoplast)是指植物细胞原生质体外围由细胞壁、细胞间隙和导管组成的系统,它是养分运输的重要途径,并有贮存养分和激活养分的功能。质体外途径(apoplast pathway)是相对
  • 威尔弗里德·劳雷尔大学坐标:43°28′31.21″N 80°31′38.08″W / 43.4753361°N 80.5272444°W / 43.4753361; -80.5272444威尔弗里德·劳雷尔大学(Wilfrid Laurier University,又译作伟佛罗利亚大
  • 马林县马林郡(Marin County)是美国加利福尼亚州的一个郡,郡治圣拉斐尔。根据美国人口调查局2000年统计,共有人口247,289,其中白人占84.03%、亚裔美国人占4.53%、非裔美国人占2.89%。马
  • 塞巴斯蒂昂·若泽·德卡瓦略-梅洛塞巴斯蒂昂·若泽·德卡瓦略-梅洛,第一代蓬巴尔侯爵、第一代奥埃拉什子爵(葡萄牙语:Sebastião José de Carvalho e Melo, Marquês de Pombal e Conde de Oeiras;1699年5月13
  • 蒋徐乃锦蒋徐乃锦(英语:Syu Nai-Jin,Nancy,1937年-2005年8月20日),浙江绍兴人,亦是中德混血儿。烈士徐锡麟之孙女,蒋经国的儿媳。父亲徐学文(1906—1991)早年留学德国,曾任公卖局长,母亲徐曼丽(191
  • 威尔·切斯威尔·切斯(英语:Will Chase,1970年9月12日-)是美国的一位演员和歌手。切斯主要出演百老汇音乐剧,他最近也在ABC的电视剧音乐之乡中饰演Luke Wheeler角色。他出生在肯塔基州法兰克
  • 清华大学艺术博物馆清华大学艺术博物馆(冠名“黄如论馆”),位于北京市海淀区清华大学校内东南,是该校艺术博物馆。此博物馆由中国建筑科学研究院及马里奥·博塔建筑师事务所联合设计,建筑面积2万991
  • 庄诜男庄诜男(1779年2月25日-1834年3月17日,乾隆四十四年正月初十日-道光十四年二月初八日),字子振。江苏省常州府武进县(今属常州市)人,清朝政治人物、诗人。嘉庆五年(1800年)中式庚申恩科江
  • 阿古利可拉传《阿古利可拉传》(拉丁文:),古罗马史家塔西佗大约于公元98年左右写成的传记。原书为拉丁文,记载罗马帝国统治不列颠行省,以及颂扬派驻当地的总督阿古利可拉(塔西佗岳父)的品行、政绩
  • 多重草稿模型意识的多重草稿模型,又称为多重草案模型(英语:Multiple drafts model),是一种基于认知主义的物理主义意识理论,由丹尼尔•丹尼特提出。该理论以讯息处理的角度来看待心灵 。丹尼特在1991年出版的《意识的解释》(Consciousness Explained)一书中对该理论进行了深入的描述。 正如书名所述,这本书对意识提出了一种高层次的解释,支持了强人工智能的可能性。 丹尼特将该理论描述为第一人称操作主义 。正如他所说的: .mw-parser-output .templatequote{