字符编码

✍ dations ◷ 2025-04-05 00:31:23 #字符编码

字符编码(英语:Character encoding)、字集码是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。

在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。

按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

由统一码和通用字符集所构成的现代字符编码模型则没有跟从简单字符集的观点。它们将字符编码的概念分为:有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”(有限大小的数字)以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是创建一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。在Unicode Technical Report (UTR) #17中,现代编码模型分为5个层次,所用的术语列在下面:

高层机制(higher level protocol)提供了额外信息,用于选择Unicode字符的特定变种,如XML属性xml:lang

字符映射(character map)在Unicode中保持了其传统意义:从字符序列到编码后的字节序列的映射,包括了上述的CCS, CEF, CES层次。

术语字符编码(character encoding),字符映射(character map),字符集(character set)或者代码页,在历史上往往是同义概念,即字符表(repertoire)中的字符如何编码为码元的流(stream of code units)–通常每个字符对应单个码元。

码元(Code Unit,也称“代码单元”)是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说,码元是8比特长;对于UTF-16来说,码元是16比特长;对于UTF-32来说,码元是32比特长。码值(Code Value)是过时的用法。

代码页通常意味着面向字节的编码,但强调是一套用于不能语言的编码方案的集合.著名的如"Windows"代码页系列,"IBM"/"DOS"代码页系列.

IBM的字符数据表示体系(Character Data Representation Architecture - CDRA)与编码字符集标识符(coded character set identifiers - CCSIDs) 常常把charset, character set, code page, or CHARMAP等类似意义的术语混用.

Unix或Linux不使用代码页概念,它们用charmap,比locales具有更广泛的含义.

与上文的编码字符集(Coded Character Set - CCS)不同,字符编码(character encoding)是从抽象字符到代码字(code word)的映射. HTTP(与MIME)的用法中,字符集(character set)与字符编码同义,但与CCS不是一个意思.

由于有很多种字符编码方法被使用,从一种字符编码转换到另一种,需要一些工具。

跨平台:

Linux:

Microsoft Windows:

相关

  • 罗丹明B罗丹明B /ˈroʊdəmiːn/,又称玫瑰红B或玫瑰精B、盐基性桃红精(红花米),是一种合成化学物和一种染料。它常溶解在水中,作为示踪染料来确定水流动的速率和方向。罗丹明染料能发
  • 亚历山大·伊万诺维奇·奥巴林亚历山大·伊万诺维奇·奥巴林(俄语:Александр Иванович Опарин,1894年3月2日-1980年4月21日),苏联生物化学家。1922年曾在阿尔布雷希特·科塞尔的实验室
  • 纳莱迪人纳莱迪人(学名:Homo naledi),又名纳莱蒂人,是已经灭绝的人科物种,其化石于2013年在南非的升星岩洞(Rising Star Cave)被发现,包括属于至少15具遗骸、超过1550块骨骼化石。纳莱迪人超
  • 底片胶片,是一种制成影像物料。现今广泛应用的胶片是将卤化银涂抹在聚乙酸酯片基上,此种胶片为软性,卷成整卷方便使用,所以又称胶卷,当有光线照射到卤化银上时,卤化银转变为黑色的银,经
  • 放射虫放射虫门(学名:Radiozoa)又名放线虫,为海中浮游生物,有如球形对称,带有硅壳,壳上有美丽的花纹。身体内有膜质中央囊,囊面穿有许多小孔,将身体分为内外两部分,外部被胶状物质,多有液泡,内
  • 内华达山脉内华达山脉(英语:Sierra Nevada),中文又音谢拉内华达,雪乐山 是一条纵贯美国加利福尼亚州东部的山脉。部分山体也位于内华达州境内。内华达山脉的最高峰是惠特尼峰,标高4,418 m。
  • 无形体科无形体科(学名:Anaplasmataceae)是α-变形菌纲立克次体目下的一个科,包含4个已确定的属,均是专性细胞内寄生菌。已知四个属如下:无形体科下属的两个属中的细菌有引发人类患病的记
  • 2013年英国地方选举2013年英国地方选举在2013年5月2日举行,此次选举在包括所有27个非都市郡议会、8个一元化地方行政体和安格尔西岛郡议会内举行,并在北泰因赛德和唐卡斯特举行了市长直接选举。
  • Windows NTWindows NT 4.0是微软Windows NT家族的第四套产品,代号Shell Update Release,于1996年7月29日发行给制造商。为一个32位的操作系统,分为工作站以及服务器版本。而其图形操作界
  • 幽灵蟹总科见内文Ptenoplacidae Alcock, 1899反羽蟹科(学名:Retroplumidae)是幽灵蟹总科(Retroplumoidea)下唯一的单系科。反羽蟹科下有8个属,但只有Bathypluma及反羽蟹属两个属有发现现存物