中文乱码

✍ dations ◷ 2025-11-26 03:58:38 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 麦角钙化醇麦角钙化醇(英语:Ergocalciferol)是维生素D2的化学名,为麦角固醇在紫外线作用下产生的开环甾体(英语:secosteroid)。早期制备的麦角钙化醇商品名为Viosterol,由麦角固醇在紫外线光照
  • 台湾西部走廊台湾西部,或称西台湾、台湾西部走廊,是指台湾西半边的地理区域,包括北台湾(不含宜兰县)、中台湾与南台湾的非山地地带,濒临台湾海峡,与中国大陆及金马地区隔海相望,占台湾本岛总面积
  • 愈创木酚愈创木酚(或作愈创木酚,得名于原产自拉丁美洲的愈创树)是一种天然有机物,分子式为 C6H4(OH)(OCH3)。这种无色芳香油状化合物是木馏油的主要成分,可从愈创木树脂、松油等制取。常
  • 高雄捷运公司坐标:22°34′56.7″N 121°19′52.0″E / 22.582417°N 121.331111°E / 22.582417; 121.331111高雄捷运股份有限公司(英语:Kaohsiung Rapid Transit Corporation,简称高捷公司
  • 呼格吉勒图案呼格吉勒图案,又称呼和浩特“4·9”女尸案,是于1996年4月9日在内蒙古自治区呼和浩特市发生的一起死刑冤案。报案人呼格吉勒图(蒙古语:.mw-parser-output .font-mong{font-family
  • 蒙哥蒙哥汗(蒙古语:ᠮᠥᠩᠬᠡ ᠬᠠᠭᠠᠨ,鲍培转写:,秘史记音:蒙客,又译莽赉扣,西里尔字母:Мөнх хаан,1209年1月10日-1259年8月11日),大蒙古国第四任大汗,也是大蒙古国分裂前最后一
  • 林西莉塞西莉亚·林奎斯特(瑞典语:Cecilia Lindqvist,1932年6月4日-),汉名林西莉,是一位瑞典汉学家。林西莉于1932年出生于瑞典隆德,小时候曾学习过钢琴。 1952年高中毕业,曾在斯德哥尔摩大
  • 韩忠彦韩忠彦(1038年-1109年),字师朴,安阳(今属河南)人,北宋政治家,魏郡王韩琦长子。因父亲的关系成为将作监簿,后来中进士。哲宗元祐年间,任户部尚书,迁知枢密院事。徽宗即位,任吏部尚书召拜门
  • 能源期货能源期货(Energy Futures)包括原油及其附属产品的燃油、汽油等,及其他能源如丙烷、天然气等期货。原油是全世界使用率最高的能源,至少短期之内无任何能源可取代其地位。一般原
  • 象山半岛象山半岛是中国浙江省象山县所在的陆地,位于象山港南侧,三门湾北侧,得名于其上的象山。东南有韭山列岛、檀头山、南田岛作屏障,三面环海,只有西部狭窄区域与大陆相连。海岸曲折,港