跨语检索

✍ dations ◷ 2025-01-03 10:31:21 #自2017年10月带有失效链接的条目,信息检索,图书资讯科学,计算机科学,资讯科学

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》。跨语检索意指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引、分类、搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC),一开始是附属于 TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)。NTCIR会议主要是由日本学术振兴会(JSPS)、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

根据陈信希和陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

相关

  • Angewandte Chemie International Edition《应用化学》(德语:Angewandte Chemie)是一本涵盖化学所有方面的同行评审科学期刊,每周出版一期。2011年,该刊的影响因子为13.455,它是发表原创研究的化学期刊中影响因子最高的;201
  • 扁盘动物黏丝盘虫(Trichoplax adhaerens)是1883年由德国生物学家Franz Eilhard Schulze (1840-1921)在奥地利Graz大学的水族馆发现的。目前在扁盘动物门中仅确认此一种,一般称丝盘虫即
  • 雌雄间性在生物学上,雌雄同体(英语:Hermaphrodite (plant) 、Intersexual (human being)),又称雌雄不分相,是指同时有雄性和雌性的生殖器官、第二性征。人类的雌雄间性情况称为双性人。在
  • 凝血性脑脊髓炎病毒猪凝血性脑脊髓炎病毒(Porcine hemagglutinating encephalomyelitis virus、PHEV)是乙型冠状病毒属的病毒,是已知唯一一种可感染猪神经组织的病毒。此病毒与牛冠状病毒、人类冠
  • 相对购买力指标购买力平价(英语:Purchasing Power Parity,缩写PPP),是一种根据各国不同的价格水平计算出来的货币之间的等值系数,使我们能够在经济学上对各国的国内生产总值进行合理比较,这种理论
  • 最佳女主角金马奖最佳女主角是中华民国电影事业发展基金会颁发的一个年度奖项,旨在奖励在华语电影中有杰出表现的女性主演演员。奖项于1962年第1届金马奖首度颁发,获奖者是主演《星星月
  • 日侨日侨(日语:日系人/にっけいじん)指的是已移居海外,并取得当地国籍或永久居留权,具有日本血统的侨民。现在估计大约有350万人(也包括混血)。在日本居住的日侨被称为归国日侨(在日日系
  • 臼部臼部,为汉字索引中的部首之一,康熙字典214个部首中的第一百三十四个(六划的则为第十七个)。就繁体和简体中文中,臼部归于六划部首。臼部通常从左、上方为部字或包围字的旁边。且
  • 俄勒冈州行政区划以下是美国俄勒冈州36个县的列表。俄勒冈州宪法(英语:Oregon Constitution)并没有明确规定县城:第六条,包括行政机关,只是简单地规定:更多俄勒冈州县名和地名的信息都在俄勒冈州
  • 金龙国金龙国(朝鲜语:김용국 ,汉语拼音:Jīn Lóngguó;1996年3月2日-),是一名在韩国发展的中国男歌手。2017年7月,与金始炫以“龙国&始炫”小分队形式出道。其后加入活动期为7个月的正式