中文乱码

✍ dations ◷ 2024-12-23 05:13:56 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 好氧好氧生物(英语:Aerobic organism,或 aerobe),又译为好气生物、耗氧生物、需氧生物,是能在有氧的环境中生存及生长的生物。好氧生物利用氧的化学反应来分解糖及脂肪,以获得能量。几
  • 国家基本药物目录基本药物是适应基本医疗卫生需求,剂型适宜,价格合理,能够保障供应,公众可公平获得的药品。中华人民共和国国家基本药物目录是各级医疗卫生机构配备使用药品的依据。目录中的药品
  • 理论理论(英语:Theory),又称学说或学说理论,指人类对自然、社会现象,按照已有的实证知识、经验、事实、法则、认知以及经过验证的假说,经由一般化与演绎推理等等的方法,进行合乎逻辑的推
  • 光学相干断层扫描光学相干断层扫描(英文: Optical coherence tomography,简称OCT)是一种光学信号获取与处理的方式。它可以对光学散射介质如生物组织等进行扫描,获得的三维图像分辨率可以达到微
  • 施莱县施莱县(Schley County, Georgia)是美国乔治亚州西部的一个县。面积435平方公里。根据美国2000年人口普查,共有人口3,766人。县治艾拉维 (Ellaville)。成立于1857年12月22日。县
  • 彭汪嘉康彭汪嘉康(英语:Jacqueline Whang-Peng,1932年9月-)台湾医学家,曾任美国卫生研究院研究员,中央研究院生医所生医所临床研究中心主任,国家卫生研究院癌症研究组主任,现为台北医学大学讲
  • 伊利诺伊领地伊利诺伊领地(英语:Illinois Territory)是美国历史上的一个合并建制领土,曾是西北领地的一部分,存在于1809年3月1日至1818年12月3日之间,之后升格为美国第21个州伊利诺伊州。伊利
  • 剑桥大学丘吉尔学院剑桥大学丘吉尔学院(英语:Churchill College, Cambridge)是英国剑桥大学的学院之一。学院学术集中在科学﹐数学和科技上的﹐而在人文学科上也有着一定的成就。在1958年﹐为纪念前任英
  • 阿布杜尔·拉赫曼汗阿布杜尔·拉赫曼汗(1844年-1901年),为阿富汗1826年建立之巴拉克查依王朝的在位君主之一。他本为塔什库尔干总督,后因为与雅库布汗争夺阿富汗帝位失利,走避他国。1879年,接受英国相
  • 2-辛炔2-辛炔(英语:2-Octyne,或oct-2-yne,也称为甲基正戊基乙炔,methylpentylethin)是辛炔的一种同分异构体,分子式C8H14,2号与3号碳原子之间为碳碳三键。在常温常压下,2-辛炔密度为0.759 g