兼容字元

✍ dations ◷ 2025-12-05 11:49:53 #兼容字元

当讲解和谈论统一码和UCS时，经常提到“兼容字符”这个字眼。兼容字符是指统一码联盟主张不要使用的图像式字符，正如统一码联盟所说：若不是为了与其他标准间兼容和能够双向对应转换，就不会在统一码中编码的字符。然而，其定义实在远比这话语有更深层和复杂的意味。每个字符都有一个标准分解（canonical decomposition）的属性，可是大部分字符这个属性的值是这个字符自身，但超过五千个字符的标准分解属性的值不是该字符自身。这个标准分解属性值能将兼容字符映射到一个或多个的其他的非兼容字符，并借此定义这五千多个字符为统一码中的兼容字符。指定某字符为兼容字符的理由各异，下面有更详细的说明。“分解”这个用语有时会令人感到困惑，因为有些字符“分解”后还是单个字符的形态，这时该字符的分解值就是另一个相等或近似相等的字符。兼容字符与其非空值的标准分解（语义上）是确切等价的。如果一个兼容字符可以用多个分解序列表示，那么采用了标准顺序（canonical order）的序列是该字符的标准分解。例如，ộ，有两种分解序列：（U+006F LATIN SMALL LETTER O）（U+0302 COMBINING CIRCUMFLEX ACCENT）（U+0323 COMBINING DOT BELOW）或者（U+006F LATIN SMALL LETTER O）（U+0323 COMBINING DOT BELOW）（U+0302 COMBINING CIRCUMFLEX ACCENT），两个附加符号出现在分解序列中的位置是可交换的。Unicode的另一个概念兼容性分解（compatibility decomposition），是把一个兼容字符映射为一个或多个的其他的非兼容字符。但兼容字符与兼容性分解可能会有语义（如排版格式上）的损失。例如上角标数字字符⁴与普通的数字字符4。Unicode的所有预组合字符（precomposed character）都是兼容字符。即所有预组合字符都能够用其他字符或字符序列来表示。因此预组合字符的标准分解总是存在。具有不同于自身且不为空值的标准分解属性值的字符，称为标准组合字符（ canonical composite）。根据兼容分解属性的值，可将统一码的 5,402 个字符分成 17 逻辑分类，并赋予其关键字。具有兼容分解但没有关键字的字符被称作标准可分解字符，这些字符并不是兼容字符。兼容可分解字符的关键字包括： <initial>、<medial>、<final>、<isolated>、<wide>, <narrow>、<small>、<square>、<vertical>、<circle>、<noBreak>、<fraction>、<sub>、<super>和 <compat>。这些关键字提供了一些消息：包含兼容字符和它的兼容分解字符序列。兼容字符可分为以下三类：因为这些语义上不同的字符有可能会使用相似的字形，文字处理软件应该向用户指示出其可能的混淆。当比较和排序文本字符串时，同一字符的不同字形或格式化文本的不同版本不应该改变文本处理结果。例如，软件用户可能会困惑，在查找一页中的大写字母“I”时，软件无法找到在视觉上相似的罗马数字“Ⅰ”（二者是兼容等价，但不是标准等价）。对于遵循统一码标准的文字处理和显示软件来说，有些兼容字符是不必要的。这些包含：譬如，罗马数十二（“Ⅻ”：U+216B）可以分解成一个罗马数十（“Ⅹ”：U+2169）和两个罗马数一 (‘Ⅰ’: U+2160)。Unicode认为字符序列'U+2169 U+2160 U+2160'是否被组合为单个字符'Ⅻ'，这是文本绘制软件要处理的问题。如 Å（U+00C5），统一码倾向视为两个分开的字符，一个拉丁字母 A （“Latin letter A”）结合一个“Combining Ring Above”（U+030A）。总结而言，上述的预组合的字符的使用是不必要的，应该用普通字符的序列来表示这些预组合的字符；由遵从Unicode规范的字体或者文本绘制软件来决定选用哪个字形。Unicode字符集（即UCS）, Unicode字符的属性、Unicode算法为文本处理软件实现提供了所需的一切来适当地绘制处于分解等价状态的字符。因此那些分解兼容字符变成了冗余与不必要。字符集中分解兼容字符的存在导致了文本处理时额外的代价用于正确地比较、排序（参见统一码等价性）。此外，分解兼容字符并没有提供补充的或不同的语义。分解兼容字符也没有提供绘制时视觉上的不同，如果文本布局与字体遵循Unicode规范。分解兼容字符也不是与其他字符集往返转换所需要的，因为可以把一个字符集的分解字符序的列来映射到另一字符集的预组合的字符。上下文中字形选择，如阿拉伯字母可以根据它在单词内的位置而映射到传统字符集的具有特定字形的某个字符上。为了处理兼容字符，文本软件必须遵从几个Unicode协议。软件必须能够：Unicode的5,402个兼容字符中，上述这些不应该使用在文本中的字符共计3,779个。这包括所有具有关键字 <initial>、<medial>、<final>、<isolated>、<wide>, <narrow>、<small>、<square>、<vertical>、<fraction>的兼容字符。还包括大多数具有<compat>关键字的兼容字符（例外情况是有<compat>关键字的被封闭的字母数字、被封闭的象形文字、以及下文所提及)用于格式化文本的兼容字符，不是Unicode与UCS所考虑的目标。格式化文本所用的兼容字符，可能与普通字符在语义上有出入。例如，作为上角标的数字4，与普通字符数字4，可能语义上不完全等价。格式化文本兼容字符包括：格式化文本兼容字符共有1,451个，包括所有具有关键字<circle>与<font>（除了下文列出3个语义不同的例外），11个空格符的变种具有关键字<compat>，具有关键字<superscript>或<subscript>的定义在基本多语言平面的“上标及下标”块中的字符。定义在U+2100至U+214F定义的Letterlike Symbols块中的字符，都是具有字体格式的兼容字符。Unicode对于用于科学或数学的希伯来字母、希腊字母符号，作为兼容字符定义。如：6个作为度量单位的兼容字符，Unicode建议使用其等价分解的字符序列：Unicode规定了22个类似字母的兼容字符。一些语言中，语义与字形的位置有关的字符，共计130个。罗马数字：Unicode编码空间的几个字符块，都是或大部分是兼容字符。但是在“CJK Compatibility Ideographs”块中，包含一些不是兼容字符的字符：还有一个字符U+FA23“﨣”与U+27EAF“

相关

敷料敷料乃一重要急救用品，用以直接覆盖伤口。敷料分有黏性和无黏性，应因应伤口选择最合适的敷料，但如附近无敷料，可使用清洁、柔软、吸水之物品，如手帕、纸巾等。急救学作者：抗高
吉特曼氏综合症吉特曼氏综合症（英语：Gitelman syndrome），又称吉特曼症候群，是一种常染色体隐性肾脏疾病，其特点是低钙（hypocalciuria）、及低镁（hypomagnesemia）之低钾代谢性碱中毒（Metabolic alkalos
小管胃壁细胞（(gastric) parietal cells）又称壁细胞、泌酸细胞，为分泌盐酸及内在因子之上皮细胞。这些细胞都位于胃之胃底（gastric fundus）衬里中之胃腺体(gastric glands)里。它们含
NLA澳大利亚国立图书馆（National Library of Australia），是澳大利亚最大的参考（非借阅）图书馆，创立于1960年。图书馆的馆址位于澳大利亚首都领地堪培拉。根据澳大利亚联邦《国立图书
色欲性欲，指对性的渴望。一般科学家认为，性欲是一种本能欲望，对于繁殖下一代有利。至于对大多数动物而言，性欲只存在于发情期时，而动物的发情期通常都是季节性的（例如春天）。对于某些宗
Tm4f13 6s22, 8, 18, 31, 8, 2蒸气压第一：596.7 kJ·mol−1 第二：1160 kJ·mol−1 第三：2285 kJ·mol主条目：铥的同位素铥是一种化学元素，符号Tm，原子序数69，是一种金属。铥是第二稀
斯通波利岛斯特龙博利岛（英语：Stromboli），是位于意大利半岛西边第勒尼安海的一座火山岛，属于意大利三大活跃火山中的一座。它与西西里岛北部的埃奥利群岛形成一火山岛弧，此区域为全球地震最
奥里维亚奥里维亚（希腊语：Óλβια）是米利都人在南布格河河口建立的殖民地，与别列赞岛隔海相望。是此地主要的商业中心，将黑海的谷物、鱼、奴隶等出口到希腊，雅典的货物进口到斯基泰。大
西蒙·德·孟福尔西蒙·德蒙福尔（法语：Simon de Montfort）可以指以下法国裔贵族：
唇嘴唇是在人类及许多动物的脸上一个明显易见的器官，由上下两唇构成。两唇皆为凸出而柔软、并能由内部肌肉牵引而自由移动。唇是一个触觉器官，主要功能为帮助进食以及准确闭合发