中文乱码

✍ dations ◷ 2025-04-26 19:09:52 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 意大利坎波内意大利坎皮奥内(意大利语:Campione d'Italia)是一个座落于卢加诺湖湖畔的意大利城镇,行政上属伦巴第科莫省的一部分。然而,坎皮奥内与意大利本土并没有直接接壤,其全境皆为瑞士提
  • 刺檗刺檗(学名:Berberis vulgaris)是小檗科小檗属的植物。原产于欧洲中部和南部、北非和西亚等地区,落叶灌木,高达4米。叶长圆状匙形或倒卵形,长2-5厘米,宽1-2厘米。果实可以食用,富含维
  • 动物解放阵线动物解放阵线(Animal Liberation Front,简称ALF),是被全世界以动物之名采取直接行动的动物解放行动分子们,所广泛应用的名称。这些行动包括:把动物们带离实验室和毛皮养殖场、人为
  • 罗切斯特地铁罗切斯特地铁(英语:Rochester Subway),简称RSB,或称罗切斯特工业快速轨道交通,是从1927年到1956年在美国纽约州罗切斯特运营的一条地铁线路。从流传到今日的照片观察,该系统实际上
  • 马克·威廉斯 (心理学教授)马克·威廉斯(英语:J. Mark G. Williams,1952年-),牛津大学临床心理学荣誉教授、荣誉高级研究员。正念认知疗法(英语:Mindfulness-based cognitive therapy)的创建者之一。威廉斯主要
  • 陆逸轩陆逸轩(英语:Eric Lu,1997年12月15日-),美籍华裔钢琴家,与杨艺可并列为萧邦国际钢琴大赛史上最年轻的得奖者。陆逸轩的父亲来自台湾高雄、母亲来自中国上海,皆从事电脑工作。小时候
  • 官方任天堂杂志《官方任天堂杂志》(英语:,简称ONM)是英国和澳大利亚的电子游戏杂志,内容涵盖任天堂游戏机平台任天堂DS、任天堂3DS、Wii和Wii U。杂志最初由EMAP以《任天堂杂志系统》()名义出版,杂
  • 2003年7月逝世人物列表2003年逝世人物列表:1月 - 2月 - 3月 - 4月 - 5月 - 6月 - 7月 - 8月 - 9月 - 10月 - 11月 - 12月下面是2003年7月逝世的知名人士列表:
  • 约翰·马歇尔·哈伦 (1899年-1971年)约翰·马歇尔·哈伦(英语:John Marshall Harlan II,1899年5月20日-1971年12月29日),美国法学家。1955年至1971年出任美国最高法院大法官。哈伦的祖父约翰·马歇尔·哈伦亦曾于1877
  • 四格漫画四格漫画是使用4个格数来构成一段故事的一种漫画形式。很久以前就是用来描写最小限度的故事的固定型式。现在也有许多四格漫画専门的漫画杂志。以直行的方式在1行的4个格子