跨语检索

✍ dations ◷ 2025-11-26 06:49:22 #自2017年10月带有失效链接的条目,信息检索,图书资讯科学,计算机科学,资讯科学

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》。跨语检索意指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引、分类、搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC),一开始是附属于 TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)。NTCIR会议主要是由日本学术振兴会(JSPS)、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

根据陈信希和陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

相关

  • 膜蛋白膜蛋白(英语:membrane protein)是指能够结合或整合到细胞或细胞器的膜上的蛋白质的总称。而细胞中一半以上的蛋白质可以与膜以不同形式结合。根据与膜结合强度的不同,膜蛋白可以
  • NASA美国国家航空航天局(英语: National Aeronautics and Space Administration ,缩写为NASA,/ˈnæsə/)是美国联邦政府的一个独立机构,负责制定、实施美国的民用太空计划、与开展航
  • 逻辑符号在逻辑是否中,经常使用一组符号来表达逻辑结构AI。因为逻辑学家非常熟悉这些符号,他们在使用的时候没有解释它们。所以,给学逻辑的人的下列表格,列出了最常用的符号、它们的名字
  • 法国大革命法国大革命(法语:Révolution française, 1789年-1799年)是法国的一段社会激进与政治动荡的时期,对于法国历史以及全欧洲都留下深刻广泛影响。法国政治体制在大革命期间发生了众
  • 称义称义(英语:Justification)是指在基督教、犹太教和伊斯兰教的神学理论中,上帝使一个有罪的人具有“公义”、“无罪”(righteous)的身份。“称义”的概念出自于基督教的《新约圣经》
  • 纽氏副盲鳗纽氏副盲鳗(学名:Paramyxine nelsoni),又名青眠鳗、无目鳗、鳗背、龙筋,为盲鳗科副盲鳗属下的一个种。
  • 晶圆晶圆(英语:Wafer)是指制作硅半导体集成电路所用的硅芯片,由于其形状为圆形,故称为晶圆。晶圆是生产集成电路所用的载体,一般晶圆产量多为单晶硅圆片。晶圆是最常用的半导体材料,按
  • 中国风力发电截至2016年,中国是世界上排名第一的风力发电国家、新装风力发电设备装机容量最大的国家,并且保持快速增长。由于中华人民共和国有广阔的土地与漫长的海岸线,因此具有十分丰富的
  • 霍利迪交叉Holliday交叉(Holliday junction)是四股DNA所形成的交叉结构,名称来自此于1964年提出此概念者Robin Holliday,用以解释发现于酵母菌的遗传资讯交换,也就是同源重组。目前遗传学上
  • 尤马沙漠尤马沙漠(Yuma Desert)是索诺兰沙漠的一部分,位于美国亚利桑那州西南部至墨西哥索诺拉州西北部,墨西哥境内的部分也称“大沙漠”(西班牙语:Gran Desierto)。北滨希拉河,西滨科罗拉多