字元编码

✍ dations ◷ 2024-11-05 18:43:15 #字元编码
字符编码(英语:Character encoding)、字集码是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。由统一码和通用字符集所构成的现代字符编码模型则没有跟从简单字符集的观点。它们将字符编码的概念分为:有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”(有限大小的数字)以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是创建一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。在Unicode Technical Report (UTR) #17中,现代编码模型分为5个层次,所用的术语列在下面:高层机制(higher level protocol)提供了额外信息,用于选择Unicode字符的特定变种,如XML属性xml:lang字符映射(character map)在Unicode中保持了其传统意义:从字符序列到编码后的字节序列的映射,包括了上述的CCS, CEF, CES层次。术语字符编码(character encoding),字符映射(character map),字符集(character set)或者代码页,在历史上往往是同义概念,即字符表(repertoire)中的字符如何编码为码元的流(stream of code units)–通常每个字符对应单个码元。码元(Code Unit,也称“代码单元”)是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说,码元是8比特长;对于UTF-16来说,码元是16比特长;对于UTF-32来说,码元是32比特长。码值(Code Value)是过时的用法。代码页通常意味着面向字节的编码,但强调是一套用于不能语言的编码方案的集合.著名的如"Windows"代码页系列,"IBM"/"DOS"代码页系列.IBM的字符数据表示体系(Character Data Representation Architecture - CDRA)与编码字符集标识符(coded character set identifiers - CCSIDs) 常常把charset, character set, code page, or CHARMAP等类似意义的术语混用.Unix或Linux不使用代码页概念,它们用charmap,比locales具有更广泛的含义.与上文的编码字符集(Coded Character Set - CCS)不同,字符编码(character encoding)是从抽象字符到代码字(code word)的映射. HTTP(与MIME)的用法中,字符集(character set)与字符编码同义,但与CCS不是一个意思.由于有很多种字符编码方法被使用,从一种字符编码转换到另一种,需要一些工具。跨平台:Linux:Microsoft Windows:

相关

  • 基因组学基因组学(英语:Genomics),或基因体学,是研究生物基因组和如何利用基因的一门学科。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。基因组学能
  • 格里夫氏症弥漫性毒性甲状腺肿(Toxic diffuse goiter),又称格里夫氏症(Graves' disease),为一种主要侵犯甲状腺的自身免疫性疾病。此病为导致甲状腺功能亢进症最常见的原因,且会导致甲状腺肿
  • 西伯利亚坐标:60°0′N 105°0′E / 60.000°N 105.000°E / 60.000; 105.000地理上的西伯利亚西伯利亚(俄语:Сибирь,罗马化:Sibir)是乌拉山脉以东的广大地区的总称,占北亚的大部分,面
  • 组织细胞增生症医学中,组织细胞增生(英语:Histiocytosis)是指组织细胞(英语:histiocyte)(组织巨噬细胞)之过量存在;组织细胞增多症或组织细胞增生症常被用来指代一系列以此为特征的罕见病。偶见以此
  • 溶酶体溶酶体(英语:lysosome),又称溶体、溶小体,存在于细胞(多存在于动物细胞中,植物细胞内不常见)中,属于细胞的内膜系统,由高尔基氏复合体产生,是单层膜的囊状细胞器,内部含有数十种从高尔基
  • 风湿免疫科人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学风湿病学或称风湿病专科(英语:Rheumatol
  • 脂肪酸代谢脂肪酸被分类为脂质营养素家族的一员,其在生物代谢中为ATP的合成提供能量。与其他营养素成员(蛋白质、糖类)比较的话,会发现借由β-氧化分解同样质量的脂肪酸能提供最多能量,合
  • 信仰信仰(英语:Faith),拉丁语作 fides and 旧法语作 feid, 是对一位人,一个物,一件事,或者是一种概念的坚信不疑和置信。 在宗教的概念上,可以把信仰分为信心和信任两种。 信仰宗教的人
  • 正电子发射电脑断层扫描正电子发射计算机断层扫描(英语:Positron emission tomography,简称PET)是一种核医学临床检查的成像技术。PET技术是当前唯一的用解剖形态方式进行功能、代谢和受体显像的技术,具
  • 帕金森症帕金森病(Parkinson's disease,简称PD)是一种影响中枢神经系统的慢性神经退化疾病,主要影响运动神经系统。它的症状通常随时间缓慢出现,早期最明显的症状为颤抖、肢体僵硬、运动