中文乱码

✍ dations ◷ 2025-02-23 19:48:03 #中文信息处理

中文乱码是中文系统的一种现象,这在过去未有一套统一的中文内码标准时,情况尤其严重。而随着互联网的普及,两岸之间或世界各地用户交流之际,乱码现象亦都会去了解因为各方使用的内码不同而产生相冲的现象。

在过去,由于繁体中文用户缺乏一个具有号召力的内码标准,不同用户都会使用各自的标准。比较普遍的是银行由于主要使用IBM的商业电脑,很自然的亦选择了IBM5550作为其内码标准。这些用5550内码的文件,一旦下载到微机上,若要转寄与其他人使用,就要透过转码换成Big5,其他人才可以阅读。

另一方面,在会计界有不少人都直接使用外国的专门软件,而为免冲码问题而使画面凌乱,不少的IT部门都把公司电脑的内码换成倚天码。本来会计人员过去只是把计算结果打印而提交报告,并未有任何问题。到后来随着电子表格的兴起,用户才发觉到当公司与外界使用的内码不同,会引起不少问题,才开始有人正视这问题。

随着UTF-8的普及化,许多繁体中文的IRC频道也逐渐从Big5转变成UTF-8;然而在这种过渡时期中,仍然有不少IRC频道是采用Big5的,所以用户参与了新的频道时,通常会想要先确定自己的字符编码有没有设错,人们最常用的测试字眼不外乎:

在Unicode编码与简体中文编码系统(例如GB2312、GBK、GB18030、CP936)转换时,部分简体中文编码的文字在Unicode编码中并不存在,Unicode会以“未识别字符(U+FFFD)”作为内码记录,而对外以UTF-8表现为“0xEF0xBF0xBD”,当多个“0xEF0xBF0xBD”连续出现,而且以简体中文编码去解释的话,就会被解析为多个“锟斤拷”。(锟(0xEFBF)、斤(0xBDEF)、拷(0xBFBD))

过往,乱码所产生的问题,往往只是阅读上的不方便,因为文字变成了乱码,使用户看不到文字的内容。然而,现时由于电脑软件保安设计的问题,乱码随时可能会使应用程序不正常关闭。

相关

  • 基因重组遗传重组(genetic recombination;亦称基因重组(genetic reshuffling))在遗传学上的重组、是指DNA片段断裂并且转移位置的现象。发生在减数分裂时非姐妹染色单体上的基因结合。
  • 军事技术军事技术与装备,简称军备,罗列了古今各式各样的武器、技术,甚至理论,为军事学中重要的一环。QF 20磅炮
  • 生物强化生物强化(英语:Biological augmentation)是指通过添加细菌或古菌来提高生物降解速度的过程。源自受污染地区的生物可能已经能够分解废物,但可能效率低下、速度慢。因此,科学家通
  • 涅夫勒省涅夫勒省(法文:Nièvre)是法国勃艮第-弗朗什-孔泰大区所辖的省份。该省编号为58。5个海外省及大区
  • 棕榈酸棕榈酸(Palmitic acid),又称软脂酸,IUPAC名十六(烷)酸,是一种饱和高级脂肪酸,以甘油脂的形式普遍存在于动植物油脂中,在自然界中分布很广。棕榈油、棕榈仁油、牛油、乳酪、牛奶及肉类
  • 海商法海商法是调整海上运送关系和船舶关系的法律,属于商事法,在采民商合一立法例的国家(例如中华民国)则属民事特别法。其规范的对象为海商,顾名思义为相对于“陆商”而言的海上商业交
  • 百山祖冷杉百山祖冷杉(学名:Abies beshanzuensis)是松科冷杉属的一个树种,为中国的特有植物,至今只在浙江省庆元县百山祖发现生存,长于海拔1,700米的地区,常生于山坡林中,目前尚未由人工引种栽
  • .pl.pl为波兰国家及地区顶级域(ccTLD)的域名。A .ac .ad .ae .af .ag .ai .al .am .ao .aq .ar .as .at .au .aw .ax .az  B .ba .bb .bd .be .bf .bg .bh .bi .bj .bm .bn .
  • 齐布利尼克河齐布利尼克河(乌克兰语:Цибульник),是乌克兰的河流,位于该国中部,属于第聂伯河的支流,发源自伊万基夫齐,流经基洛夫格勒州,河道全长55公里,流域面积561平方公里。
  • 伊凡·加拉米安伊凡·加拉米安(亚美尼亚语:Իվան Ղալամեան,1903年2月5日-1981年4月14日)是一位出生于伊朗的亚美尼亚裔小提琴教师。