兼容字元

✍ dations ◷ 2025-04-03 12:40:30 #兼容字元
当讲解和谈论统一码和UCS时,经常提到“兼容字符”这个字眼。兼容字符是指统一码联盟主张不要使用的图像式字符,正如统一码联盟所说:若不是为了与其他标准间兼容和能够双向对应转换,就不会在统一码中编码的字符。然而,其定义实在远比这话语有更深层和复杂的意味。每个字符都有一个标准分解(canonical decomposition)的属性,可是大部分字符这个属性的值是这个字符自身,但超过五千个字符的标准分解属性的值不是该字符自身。这个标准分解属性值能将兼容字符映射到一个或多个的其他的非兼容字符,并借此定义这五千多个字符为统一码中的兼容字符。指定某字符为兼容字符的理由各异,下面有更详细的说明。“分解”这个用语有时会令人感到困惑,因为有些字符“分解”后还是单个字符的形态,这时该字符的分解值就是另一个相等或近似相等的字符。兼容字符与其非空值的标准分解(语义上)是确切等价的。如果一个兼容字符可以用多个分解序列表示,那么采用了标准顺序(canonical order)的序列是该字符的标准分解。例如,ộ,有两种分解序列:(U+006F LATIN SMALL LETTER O) (U+0302 COMBINING CIRCUMFLEX ACCENT) (U+0323 COMBINING DOT BELOW)或者 (U+006F LATIN SMALL LETTER O) (U+0323 COMBINING DOT BELOW)(U+0302 COMBINING CIRCUMFLEX ACCENT),两个附加符号出现在分解序列中的位置是可交换的。Unicode的另一个概念兼容性分解(compatibility decomposition),是把一个兼容字符映射为一个或多个的其他的非兼容字符。但兼容字符与兼容性分解可能会有语义(如排版格式上)的损失。例如上角标数字字符⁴与普通的数字字符4。Unicode的所有预组合字符(precomposed character)都是兼容字符。即所有预组合字符都能够用其他字符或字符序列来表示。因此预组合字符的标准分解总是存在。具有不同于自身且不为空值的标准分解属性值的字符,称为标准组合字符( canonical composite)。根据兼容分解属性的值,可将统一码的 5,402 个字符分成 17 逻辑分类,并赋予其关键字。具有兼容分解但没有关键字的字符被称作标准可分解字符,这些字符并不是兼容字符。兼容可分解字符的关键字包括: <initial>、<medial>、<final>、<isolated>、<wide>, <narrow>、<small>、<square>、<vertical>、<circle>、<noBreak>、<fraction>、<sub>、<super>和 <compat>。 这些关键字提供了一些消息:包含兼容字符和它的兼容分解字符序列。 兼容字符可分为以下三类:因为这些语义上不同的字符有可能会使用相似的字形,文字处理软件应该向用户指示出其可能的混淆。当比较和排序文本字符串时,同一字符的不同字形或格式化文本的不同版本不应该改变文本处理结果。例如,软件用户可能会困惑,在查找一页中的大写字母“I”时,软件无法找到在视觉上相似的罗马数字“Ⅰ”(二者是兼容等价,但不是标准等价)。对于遵循统一码标准的文字处理和显示软件来说,有些兼容字符是不必要的。这些包含:譬如,罗马数十二(“Ⅻ”:U+216B)可以分解成一个罗马数十(“Ⅹ”:U+2169)和两个罗马数一 (‘Ⅰ’: U+2160)。Unicode认为字符序列'U+2169 U+2160 U+2160'是否被组合为单个字符'Ⅻ',这是文本绘制软件要处理的问题。如 Å(U+00C5),统一码倾向视为两个分开的字符,一个拉丁字母 A (“Latin letter A”)结合一个“Combining Ring Above”(U+030A)。总结而言,上述的预组合的字符的使用是不必要的,应该用普通字符的序列来表示这些预组合的字符;由遵从Unicode规范的字体或者文本绘制软件来决定选用哪个字形。Unicode字符集(即UCS), Unicode字符的属性、Unicode算法为文本处理软件实现提供了所需的一切来适当地绘制处于分解等价状态的字符。因此那些分解兼容字符变成了冗余与不必要。字符集中分解兼容字符的存在导致了文本处理时额外的代价用于正确地比较、排序(参见统一码等价性)。此外,分解兼容字符并没有提供补充的或不同的语义。分解兼容字符也没有提供绘制时视觉上的不同,如果文本布局与字体遵循Unicode规范。分解兼容字符也不是与其他字符集往返转换所需要的,因为可以把一个字符集的分解字符序的列来映射到另一字符集的预组合的字符。 上下文中字形选择,如阿拉伯字母可以根据它在单词内的位置而映射到传统字符集的具有特定字形的某个字符上。为了处理兼容字符,文本软件必须遵从几个Unicode协议。软件必须能够:Unicode的5,402个兼容字符中,上述这些不应该使用在文本中的字符共计3,779个。这包括所有具有关键字 <initial>、<medial>、<final>、<isolated>、<wide>, <narrow>、<small>、<square>、<vertical>、<fraction>的兼容字符。还包括大多数具有<compat>关键字的兼容字符(例外情况是有<compat>关键字的被封闭的字母数字、被封闭的象形文字、以及下文所提及)用于格式化文本的兼容字符,不是Unicode与UCS所考虑的目标。格式化文本所用的兼容字符,可能与普通字符在语义上有出入。例如,作为上角标的数字4,与普通字符数字4,可能语义上不完全等价。格式化文本兼容字符包括:格式化文本兼容字符共有1,451个,包括所有具有关键字<circle>与<font>(除了下文列出3个语义不同的例外),11个空格符的变种具有关键字<compat>,具有关键字<superscript>或<subscript>的定义在基本多语言平面的“上标及下标”块中的字符。 定义在U+2100至U+214F定义的Letterlike Symbols块中的字符,都是具有字体格式的兼容字符。Unicode对于用于科学或数学的希伯来字母、希腊字母符号,作为兼容字符定义。如:6个作为度量单位的兼容字符,Unicode建议使用其等价分解的字符序列:Unicode规定了22个类似字母的兼容字符。一些语言中,语义与字形的位置有关的字符,共计130个。罗马数字:Unicode编码空间的几个字符块,都是或大部分是兼容字符。但是在“CJK Compatibility Ideographs”块中,包含一些不是兼容字符的字符:还有一个字符U+FA23“﨣”与U+27EAF“

相关

  • 细胞免疫细胞介导免疫(英语:Cell-mediated immunity)是一种免疫反应。细胞介导免疫会活化巨噬细胞、T细胞(CD4+或CD8+)并释放淋巴因子。不像体液免疫,其中没有抗体参与免疫反应。病原体被
  • 地衣... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no cha
  • 购买力平价购买力平价(英语:Purchasing Power Parity,缩写PPP),是一种根据各国不同的价格水平计算出来的货币之间的等值系数,使我们能够在经济学上对各国的国内生产总值进行合理比较,这种理论
  • 次原子粒子亚原子粒子,或称次原子粒子。是指比原子还小的粒子。例如:电子、中子、质子、介子、夸克、胶子、光子等等。亚原子粒子,按照参与基本相互作用的性质可以分为:以及:一个不属于规范
  • 电极在电池中,电极一般指与电解质溶液发生氧化还原反应的位置。电极有正负之分,正极指电位(电势)较高的一端,负极指电位较低的一端。一般正极为阴极,获得电子,发生还原反应,负极则为阳极
  • 伊利湖伊利湖(英语:Lake Erie)是北美洲五大湖之一,也是世界第十三大湖。伊利湖的名字来源于原在南岸定居的印地安伊利部落。伊利湖的面积有24,000平方公里,平均深度19米,蓄水量483立方公
  • 社会学习异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 医学伦理医学伦理学(英语:medical ethics)是在人类以预防、医疗卫生行为、医学研究以及卫生事业管理等有关的道德现象的基础上,确立伦理学依据及其概念体系,概括出基本的伦理原则或准则、
  • 奥依语奥依语(langue d'oïl),是罗曼语族的一支,源自现在法国卢瓦尔河以北、一部分比利时和海峡群岛的地区。奥依语通常是指整个奥依语支的语言,而奥依语中使用最多的变体是法语。但是
  • L02ATC代码L(抗肿瘤药及免疫制剂)是解剖学治疗学及化学分类系统的一个分类,这是由世界卫生组织药物统计方法整合中心(The WHO Collaborating Centre for Drug Statistics Methodolo