幽灵汉字(日语:幽霊漢字/ゆうれいかんじ ),又称幽灵文字(日语:幽霊文字/ゆうれいもじ )是JIS基本汉字所收录的出处不明的汉字的总称。
1978年,当时的通商产业省制定的JIS C 6226(后来的JIS X 0208)中规定了JIS第1、第2水准汉字6349字。该汉字集称为“JIS基本汉字”。当时以下列4个汉字表为典据,采用了其中的汉字:。
但制定JIS基本汉字时,由于规格未要求明示各文字的典据,JIS基本汉字中出现了不少不仅音、义、历史,而且连用例都不明确的文字,即所谓的“幽灵文字”,大约有60字,一说超过100字。
最具代表性的有“妛”、“彁”等字,不仅《康熙字典》中未收录,追加了国字、新字体等的诸桥辙次的《大汉和辞典》(2000年补充了含部分JIS基本汉字的《补卷》除外)中也没有记载。
基于此情况,1997年制定改定规格时,其原案作成委员会以委员长芝野耕司(日语:芝野耕司)和国立国语研究所(日语:国立国語研究所)的笹原宏之(日语:笹原宏之)等人为中心,调查了1978年规格的原案编制时参考的文献。其结果是原本被视为幽灵汉字的,多数为地名等实际有使用的汉字。
根据调查,早于1978年规格原案编制,行政管理厅在1974年整理包括上述1-3的8个汉字表并编制了《以行政情报处理用标准汉字选定为目标的汉字使用频度及对应分析结果》(行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果,下称“对应分析结果”),其中汉字表和原典均有记载。选定JIS基本汉字时参照的是对应分析结果而非原典,调查发现其中包含了很多来源于《国土行政区画总览》《日本生命收容人名汉字》的幽灵文字。特别是《日本生命收容人名汉字》在第1次规格的原案编制时,原典已经佚失,因此被批评为内容存在缺陷。在此结果基础上,改定规格的委员会用校正履历复原了《国土行政区画总览》1972年版,并逐页校核其中出现的汉字。此外,他们以日本电信电话(NTT)和日本电信电话公社(电电公社)的电话簿数据库为名用例,取代现已不存的《日本生命收容人名汉字》,进行比较调查,并以30本以上的古今的字书为调查对象,进行彻底的文献参照。
另一方面,经过严密的调查后,仍有12个汉字来源不明。尽管多数来源不明的汉字也发现有各种线索,例如和古字书同形冲突的文字,或推测为资料传抄时出错,但是其中仍有“彁”这一字无任何线索。因此,现时真正的幽灵汉字为此12字,狭义上则只有“彁”一字。
前述的笹原宏之的调查结果整理收录于JIS X 0208:1997附属书7《区点位置详说》。本节选录其中一部分。
幽霊文字は典拠不明の文字であるために、少なくともJIS基本漢字が制定される以前の主な辞典には記載されていない。仮にそれが誤字であろうと、あるいは忘れられた過去やごく一部で使われていた実在の文字であろうと、読みが不明であることには変わりがない。
とはいえ、パソコンやワープロでは、その文字が実装されている以上、変換して文字が出てこないというのは具合が悪く、多くの場合は便宜的に形声文字として解釈した「音読み」を割り当てている。これに倣い、文字コードを記載した漢和辞典や漢字字典でも、これらの便宜的な読みを掲載することが一般的となっている。
なお、MS-IMEによる逆引きでは空白文字に直される。
笹原宏之等人对幽灵文字的调查是1997年的JIS汉字改正工作中的一环。JIS汉字改正曾于1983年的“83JIS改正”中,对字形、文字编码作出大幅变更,引起了严重的混乱,而本次改正则不希望重蹈覆辙。另外,由于JIS汉字已经收录于Unicode,此时对JIS的变更已经不仅是日本国内的问题。结果,幽灵文字不仅在JIS基本汉字中被保留,也可以通过计算机字体于全世界的电脑中使用。
原本来源不明的文字,即使弄清了其正字、字义,使用频率依然不高。实际上,被判定为错别字的汉字有时会用来代用本字,而至今仍来源不明的字有时会用来代用字形相似的文字,作为异字、代替字、俗字而存在。
另外,有人利用幽灵文字“来源不明”“读法不明”的特性,将其作为暗号文书,即所谓“忍者文字”。
“幽灵汉字”是日语中的说法,不少幽灵汉字在汉语中有意义,如:
以下汉字仍无出处: