中文乱码

✍ dations ◷ 2025-06-30 01:44:26 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 烧烫伤灼伤是指皮肤或其他组织因热力、电力、化学物质、摩擦力或辐射所造成的创伤。大部分的灼伤是因接触滚烫液体、固体或火焰的高温。暴露在烹饪的火焰或不安全的煮食器具的危险
  • 新加坡新加坡是行使死刑制度的国家之一,也是除美国、日本、台湾外少数仍旧保留死刑制度的发达国家,据联合国估计,在1994年到1999年间全球执行的死刑个案中,如果把各国个案数目与其人口
  • IASTIAST是国际梵语转写字母的英语名称(International Alphabet of Sanskrit Transliteration)的缩写,是学术上对于梵语转写的标准,亦变成了一般出版界,如书籍及杂志的非业界标准。随
  • 竹子山竹子山属于台湾北部大屯火山群的其中一群,喷发年代约在距今80万年前,在约50万年前停止活动至今。竹子山熔岩流分布区域极为广大,是大屯火山群中覆盖面积最大的火山,涵盖新北市金
  • 池田昌子池田昌子(1939年1月1日-)是日本的女声优、旁白,所属东京俳优生活协同组合(俳协)。东京都出身。 代表作的知名的角色为好莱坞影星奥黛丽·赫本的日语配音与“银河铁道999”的“梅黛
  • 法布里-佩罗干涉仪在光学中,法布里-佩罗干涉仪(英文:Fabry–Pérot interferometer)是一种由两块平行的玻璃板组成的多光束干涉仪,其中两块玻璃板相对的内表面都具有高反射率。法布里-佩罗干涉仪也经
  • 滇虹药业滇虹药业集团股份有限公司,简称滇虹药业集团股份、滇虹药业集团,以及滇虹药业(英语:DIHON PHARMACEUTICAL GROUP CO., LTD.),于1993年由美国大东企业公司设立当时名为“昆明滇虹药
  • 李中梓李中梓(1588年-1655年),字士材,号念莪,又号尽凡居士,江苏云间南汇人(一说明末华亭(上海松江)人),曾为明朝御医。曾祖李府,字一乐,为抗寇名将。父李尚兖,字补之,进士出身,曾任职兵部和吏部。李
  • 氟化钡氟化钡(化学式:BaF2)是钡生成的氟化物。无色立方细小结晶。微溶于热水,溶于酸和氯化铵。有毒!在自然界中以氟钡矿(frankdicksonite)的形式存在。固态氟化钡为萤石型晶体结构,立方晶
  • 华天龙号华天龙号,是中国制造的起重机吊船,号称“亚洲第一吊”,因为打捞南海一号而特制和成名。华天龙号由中国交通部广州打捞局建造,总投资达6亿多元人民币。2007年3月落成,船身长174.85