字元编码

✍ dations ◷ 2025-06-06 17:00:00 #字元编码
字符编码(英语:Character encoding)、字集码是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。由统一码和通用字符集所构成的现代字符编码模型则没有跟从简单字符集的观点。它们将字符编码的概念分为:有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”(有限大小的数字)以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是创建一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。在Unicode Technical Report (UTR) #17中,现代编码模型分为5个层次,所用的术语列在下面:高层机制(higher level protocol)提供了额外信息,用于选择Unicode字符的特定变种,如XML属性xml:lang字符映射(character map)在Unicode中保持了其传统意义:从字符序列到编码后的字节序列的映射,包括了上述的CCS, CEF, CES层次。术语字符编码(character encoding),字符映射(character map),字符集(character set)或者代码页,在历史上往往是同义概念,即字符表(repertoire)中的字符如何编码为码元的流(stream of code units)–通常每个字符对应单个码元。码元(Code Unit,也称“代码单元”)是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说,码元是8比特长;对于UTF-16来说,码元是16比特长;对于UTF-32来说,码元是32比特长。码值(Code Value)是过时的用法。代码页通常意味着面向字节的编码,但强调是一套用于不能语言的编码方案的集合.著名的如"Windows"代码页系列,"IBM"/"DOS"代码页系列.IBM的字符数据表示体系(Character Data Representation Architecture - CDRA)与编码字符集标识符(coded character set identifiers - CCSIDs) 常常把charset, character set, code page, or CHARMAP等类似意义的术语混用.Unix或Linux不使用代码页概念,它们用charmap,比locales具有更广泛的含义.与上文的编码字符集(Coded Character Set - CCS)不同,字符编码(character encoding)是从抽象字符到代码字(code word)的映射. HTTP(与MIME)的用法中,字符集(character set)与字符编码同义,但与CCS不是一个意思.由于有很多种字符编码方法被使用,从一种字符编码转换到另一种,需要一些工具。跨平台:Linux:Microsoft Windows:

相关

  • 丛集性头痛丛集性头痛又称丛发性头痛 (英文:Cluster headache) ,是一种神经性疾病,常见症状为反复性的严重单侧头痛,常见在眼眶周围。 通常会伴随着流眼泪、鼻塞、患侧眼眶红肿。 一般而言
  • 牛仔裤牛仔裤是裤子的一种,于19世纪由美国人雅各布·W·戴维斯同巴伐利亚裔美国籍李维·斯特劳斯发明并开始生产。1850年代末期,李维·斯特劳斯来到美国旧金山。他原来是位布商,随身
  • KUNV昆津病毒(英语:Kunjin virus,缩写作 KUNV)是一种人畜共患病毒,归为黄病毒科黄病毒属(英语:Flavivirus),是一种西尼罗河病毒亚型,只分布在大洋洲。昆津病毒最早是在1960年从澳大利亚环
  • 曲霉菌See List of Aspergillus species麹菌属(Aspergillus)是一个由几百种多细胞霉菌菌种所组成的菌属,在许多气候条件下皆可发现它们的踪影。麹菌属于1729年被皮耶尔·安东尼奥·米
  • 毛癣菌毛癣菌属(学名:Trichophyton)是子囊菌门下的一种真菌。其菌丝可以产生光滑直筒状的大分生孢子(macroconidia)与许多小分生孢子(microconidia)。其中大分生孢子直接在菌丝侧向生长,呈
  • NKC捷克共和国国家图书馆(捷克语:Národní knihovna České republiky)是捷克共和国的一所中央图书馆,由该国文化部管理。该图书馆的主要建筑物位于布拉格的克莱门特学院历史建筑
  • 白细胞减少症白细胞减少症是指外周血液中白细胞数持续低于4×109/升时的症状。嗜中性粒细胞减少症是白细胞减少症的一种。顾名思义,这种病的表现是嗜中性粒细胞(白细胞中最常见的种类)的数
  • 提尔泰奥斯提尔泰奥斯(英语:Tyrtaeus),约活动于公元前7世纪前后。古希腊挽歌体诗人之一。在第二次美塞尼亚战争期间,他住在斯巴达,用战争歌曲鼓励斯巴达人,用哀歌体诗句激励迈塞内。他的诗歌
  • 阳光太阳光,广义的定义是来自太阳所有频谱的电磁辐射。在地球,阳光显而易见是当太阳在地平线之上,经过地球大气层过滤照射到地球表面的太阳辐射,则称为日光。当太阳辐射没有被云遮蔽
  • 半音节文字半音节文字是一种半字母半音节的书写系统。该释义传统上衍生至元音附标文字,但本文主要讨论的是前者。注音符号是标准汉语的标音系统之一,现有37个符号(声母21个、介音3个及韵