中文乱码

✍ dations ◷ 2025-11-01 15:29:28 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 吊颈吊颈可以是:
  • 许霍·德弗里斯许霍·马里·德弗里斯(Hugo Marie de Vries,荷兰语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode"
  • 酵母菌感染念珠菌症(Candidiasis)是假丝酵母属(酵母菌的一种)所造成的霉菌感染,在感染口腔时,就会引发鹅口疮(Thrush)。症状和病征包括在舌头、口腔以及咽喉的部位出现小白点,也可能产生例如酸
  • 格鲁吉亚国家银行格鲁吉亚国家银行(格鲁吉亚语:საქართველოს ეროვნული ბანკი)是格鲁吉亚的中央银行。格鲁吉亚第一家中央银行成立于1919年。现在的格鲁吉亚国家银行则成
  • 萨马丁尼乔万尼·巴蒂斯塔·萨马丁尼(意大利语:Giovanni Battista Sammartini,1700或1701年-1775年1月15日),法国血统的意大利作曲家。早年从父学习音乐,1720年在宫廷乐队任双簧管手,1728年
  • 撒哈拉地区撒哈拉地区,泛指位于撒哈拉沙漠的非洲,常与撒哈拉以南非洲相对。撒哈拉沙漠是世界上最大的沙漠,有数个国家位于其范围内。本区气候恶劣,降水稀少,是世界上最不适合人类居住的地区
  • 威廉·唐纳·汉弥尔顿威廉·唐纳·汉弥尔顿(英语:William Donald Hamilton、1939年8月1日-2000年3月5日),英国皇家学会成员,被认为是20世纪最伟大的演化生物学理论家之一。他提出了亲属选择理论,解释蚁
  • 于莱努尔梅乡坐标:58°18′57″N 26°43′27″E / 58.31583°N 26.72417°E / 58.31583; 26.72417于莱努尔梅乡(爱沙尼亚语:Ülenurme vald),是爱沙尼亚的一个乡,位于该国东南部,由塔尔图县负责
  • 死灵族死灵族(Necrons,或译太空骷髅)是战棋游戏《战锤40000》一支虚构的外星种族。根据死灵族第5版规则书的设定,六百万年前死灵族原本是一支叫作死灵原族(Necrontyr)的种族,由于母星经常
  • 中国学科分类国家标准/580110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学 210 农学 220 林学 230 畜牧、兽医科学 240 水产学310