中文乱码

✍ dations ◷ 2025-07-27 19:39:40 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 高尿酸血症高尿酸血症(英语:Hyperuricemia)是指血液中尿酸水平异常高的表现。在人体中,正常的尿酸浓度范围的上限是:男性400 µmol/L (6.8 mg/dL),女性360 µmol/L(6 mg/dL)。许多药物如L-多
  • 酸水解植物蛋白酸水解植物蛋白(英语:Acid-hydrolyzed vegetable protein,缩写HVP)是指将粮食或荚果,如大豆、玉米或小麦煮沸后,加入盐酸降解,再通过氢氧化钠中和的产品。酸水解会将植物蛋白降解到
  • 吴家坪期吴家坪期(英语:Wuchiapingian)是二叠纪的第八个时期,年代大约位于259.1–254.14百万年前。
  • 鱼翅羹鱼翅羹故名思义就是用鱼翅煮成的羹汤,在中国的粤菜和湘菜当中都有鱼翅羹这道美食,其中粤菜会用鱼翅再加上冬菇、鸡肉和金华火腿作配料煮成,由于鱼翅是有阵腥味,故在吃时会加入红
  • 叛舰喋血记 (1935年电影)《叛舰喋血记》(英语:)是一部1935年上映的美国电影,由弗兰克·洛伊德执导,改编自查尔斯·诺德霍夫(英语:Charles Nordhoff)和詹姆斯·诺曼·霍尔(英语:James Norman Hall)的小说《》。
  • 怪谈 (日本)怪谈是日语的一个名词,用来总呼日本自古以来灵异故事。有时泛指任何恐怖故事,但有时亦指江户时代的灵异故事集。当中,四谷怪谈、皿屋敷及牡丹灯笼被认为是日本三大怪谈。
  • 金弼淳金弼淳(韩语:김필순,1878年-1919年),朝鲜半岛最早拥有行医执照的西医,世福兰斯医学院最早的韩方负责人,韩国独立运动家,中国第一位影帝金焰的父亲。:30-33:156-157:175金弼淳1878年出
  • 汤玛士·布雷克·哥拉巴汤玛士·布雷克·哥拉巴(Thomas Blake Glover;1838年6月6日-1911年12月16日)是苏格兰出身的商人。以武器商人身份在幕末的日本活跃着。在日本开始运行商业铁路前,就已经进行蒸气
  • 丙搭烯丙搭烯,也称二环丁二烯,化学式为C4H2,是一种二环非芳香性有机化合物,其分子式为C4H2,由二个三元环两两相并而成。
  • 虎眼万年青属伯利恒之星是分布于南欧的多年生草本被子植物,学名虎眼万年青属(学名:)。伯利恒之星从一个鳞茎生长,长出像草的叶子及细长的茎,最高可达30厘米。它有像星星般及带绿纹的白花束,故而