中文乱码

✍ dations ◷ 2025-10-12 07:36:27 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 肌肉系统肌肉系统(英语:Muscular System) 指身体的所有肌肉组织, 包括骨骼肌, 平滑肌和心肌,它参与动作的产生, 维持姿势及产生热量。
  • 吡咯烷吡咯啶,又称四氢吡咯,是五元含氮的饱和杂环化合物。吡咯烷是无色透明有特殊氨气味的液体,见光或潮湿空气易变黄色,有毒。与水、乙醇、乙醚、氯仿混溶。四氢吡咯的衍生物广泛存在
  • 碳酸盐岩碳酸盐岩是一种沉积岩的类别,最常见为石灰岩和白云岩两大类。其中石灰岩主要由霰石与方解石组成,后者则可提供白云石。碳酸盐岩自寒武纪已广泛分布在全球各地,估计占沉积岩总量
  • 脑深层刺激手术深部脑刺激手术(Deep brain stimulation,缩写为DBS) ,也译为脑深层刺激手术、脑部深层电刺激,是一种脑外科手术。它将导线植入脑部的特定位置,利用脑部节律器(Brain pacemaker)发出
  • 汉摩拉比法典《汉谟拉比法典》是古巴比伦第六代国王汉谟拉比颁布的一部法律,被认为是世界上最早的一部比较具有系统的法典,约公元前1754年(中年表(英语:middle chronology))颁布。1901年在埃兰
  • 国际域名缩写本列表收录已加入DNS根域(英语:DNS root zone)的顶级域名,正式列表请以IANA为准,截止2019年官方列表拥有1530个顶级域名,其中部分已弃用。根据IANA定义:7个通用顶级域早在互联网早
  • 史达祖史达祖(?-?),字邦卿,号梅溪,汴京(今河南开封)人。南宋词人。寓居杭州。早年师事张磁,但屡试不中,只好当韩侂胄的幕僚,任“省吏”,负责撰拟文稿,“奉行文字,拟帖撰旨,俱出其手”,颇得韩的倚重。
  • 埃德蒙·A·沃尔什埃德蒙·阿洛伊修斯·沃尔什(英语:Edmund Aloysius Walsh,1885年10月10日-1956年10月31日)美国学者,天主教司铎、耶稣会修道士、地缘政治学教授,乔治城大学埃德蒙·A·沃尔什外事学
  • 宝滢宝滢(Persil),又译宝莹,是德国汉高品牌。1907年6月6日由汉高创建的一个洗衣产品品牌,但在英国、爱尔兰、法国、拉丁美洲(墨西哥除外)、中国、澳大利亚和新西兰由联合利华生产营销。
  • 陆星宇陆星宇(1995年8月29日-),艺名麓七。中国内地流行乐男歌手、词曲作家、网络主播。2017年入驻腾讯音乐人后相继推出《初雪告白》、《妄想的月光》、《夏日码头》等原创音乐作品。2