中文乱码

✍ dations ◷ 2025-06-09 05:12:10 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 白三烯A4白三烯A4(英语:Leukotriene A4)是一种白三烯。白三烯A4水解酶可将其水解为白三烯B4,白三烯C4合酶可将其与谷胱甘肽结合生成白三烯C4。医学导航:遗传代谢缺陷代谢、k,c/g/r/p/y/i,
  • 罗闻全罗闻全(英语:Andrew Wen-Chuan Lo,1960年4月18日-),美籍华裔经济学家,麻省理工斯隆管理学院的Charles E. and Susan T. Harris经济学教授。 罗是财经和金融经济学领域的许多学术文
  • 熊掌熊掌又名熊蹯,是中国珍贵的传统食材,八珍之一。传统上熊掌多产于中国东北的长白山区,特别是吉林东部。以黑熊、棕熊脚掌为多,特别是左前掌最为肥腴,掌花明显,被列为上品。其性平、
  • 最后通牒博弈最后通牒赛局(英语:Ultimatum Game)是一种由两名参与者进行的非零和博弈。在这种博弈中,一名提议者向另一名响应者提出一种分配资源的方案,如果响应者同意这一方案,则按照这种方案
  • 猫眼综合征猫眼综合征(英语:Cat eye syndrome)是一种遗传病,其会导致眼睛虹膜的缺损,使眼睛看起来像猫眼一样。其在瑞士的发生率约为1/50000至1/150000。遗传方面,其遗传方式为无家族史的偶
  • 德国驻外机构列表德国驻外机构列表列出德意志联邦共和国在世界各地设置的外交代表机构,由大使馆(Botschaft)、总领事馆(Generalkonsulate)、领事馆(Konsulate)和常驻代表处(Ständige Vertretung)组成
  • 拉普拉斯-德拉姆算子我们可以在微分流形的外代数上定义一个拉普拉斯微分算子。在黎曼流形上它是一个椭圆型算子,而在洛伦兹流形上是双曲型的。拉普拉斯–德拉姆算子(Laplace-de Rham operator)定义
  • 高邑话高邑县虽然面积很小,却有着两种差别较大的方言,即常说的“铁道西话”和“铁道东话”。这里的“铁道”指从高邑县中央穿过的京广铁路。严格地说,方言的分布与地理并非完全重合。
  • 恐怖故事《恐怖故事》(韩语:무서운 이야기,英语:),是一部2012年上映的韩国电影。此部恐怖片集结众多演员演出各个单元,故事讲述被绑架的女高中生为免杀人魔杀掉自己而说出了四个恐怖故事,一
  • 波克伦语波克伦语,又译普沃克伦语,又称山区克伦语、山地克伦语,是波克伦族(山区克伦族)的语言,属于藏缅语族克伦语支,有130万人使用,主要分布在缅甸克伦邦和泰国边境地区。分为以下几种语言: