中文乱码

✍ dations ◷ 2025-08-21 18:38:37 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 海什木海什木(阿拉伯语:محمد بن الحسن بن الحسن بن الهيثم أبو على البصري,拉丁化:Abū ʿAlī al-Ḥasan ibn al-Ḥasan ibn al-Haytham)是阿
  • 迈克尔·达米特迈克尔·达米特(英语:Michael Anthony Eardley Dummett,1925年6月27日-2011年12月27日)英国哲学家,英国国家学术院院士,被描述为“上世纪最重要的英国哲学家之一,也是种族容忍和平
  • Pasteur Institute巴斯德研究院(法语:Institut Pasteur)总部位于巴黎,是法国的一个私立的非营利研究中心,致力于生物学、微生物学、疾病和疫苗的相关研究,其创建者路易·巴斯德于1885年研发出第一剂
  • 火灾分类火灾分类是针对火灾起火源特性作的分类,会用一个字母来识别,灭火器会依灭火器可以扑灭的火灾种类而加以标示。本标准根据可燃物的类型和燃烧特性将火灾定义为六个不同的类别。
  • 印第安纳·琼斯小亨利·沃尔顿·"印第安纳"·琼斯博士(Dr. Henry Walton "Indiana" Jones, Jr.,昵称“印第”(Indy))是一位出现在导演乔治·卢卡斯的冒险电影《夺宝奇兵系列》的虚构人物,同时为
  • M59加农炮美国、英国、澳大利亚、土耳其 韩国、法国、日本、中华民国 约旦、巴基斯坦、奥地利、丹麦13880公斤(拖曳状态) 12600公斤(射击状态)M101榴弹 - 45.36公斤 M104烟雾弹 - 44.53
  • 李商隐李商隐(813年1-约858年),字义山,号玉谿生、樊南生,晚唐诗人,祖籍陇西狄道(今甘肃省临洮县),祖辈迁荥阳(今河南郑州)。诗作文学价值很高,他和杜牧合称“小李杜”,与温庭筠合称为“温李”,与
  • 三菱集团三菱集团(日语:三菱グループ/みつびしグループ  */?,Mitsubishi Group;也被非官方地称为三菱系列(Mitsubishi Keiretsu))是日本一个企业联合体,为原三菱财阀解体后其旗下企业共同组
  • 金贤珠金贤珠(韩语:김현주,1977年4月24日-),韩国女演员。
  • 姜树森姜树森(1930年-2020年8月4日),女,黑龙江肇源人,中国电影导演,长春电影制片厂导演。代表作有《残雪》、《花园街五号》等。