跨语检索

✍ dations ◷ 2025-10-07 14:39:04 #自2017年10月带有失效链接的条目,信息检索,图书资讯科学,计算机科学,资讯科学

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》。跨语检索意指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引、分类、搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC),一开始是附属于 TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)。NTCIR会议主要是由日本学术振兴会(JSPS)、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

根据陈信希和陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

相关

  • 苏拉明苏拉明(英语:Suramin)是一种药品,用以治疗蟠尾丝虫症,和尚未进犯中枢神经系统的非洲人类锥虫病,给药方法是经由静脉注射。苏拉明会造成不少副作用,常见的有恶心、呕吐、腹泻、头痛
  • 山西老陈醋山西老陈醋是中国四大名醋之一,产于山西省中部汾河平川十余个县市区,至今已有500年余年的历史。2004年被批准为原产地域产品保护,批准的原产地范围包括且限于以下所列:其中著名
  • 苏菲派苏菲主义,又称苏菲派(Sufism、taṣawwuf;阿拉伯语:تصوّف‎),为伊斯兰教的密契主义(或称神秘主义),为追求精神层面提升的伊斯兰教团,其诠释的方式有别于一般穆斯林,他们在生活方面
  • 汉族音乐汉族音乐是中国民族音乐的重要组成部分,由于汉族人分布地域广大,各地环境与人文条件有很大的不同,因此音乐特点也有很大的区别,但共同的历史和发展也造就了许多共同点,汉族音乐的
  • 韩国宪法外交 · 南北统一 · 阳光政策 · 行政区划 · 人权(朝鲜语:대한민국의 인권)政治主题《大韩民国宪法》(朝鲜语:대한민국 헌법/大韓民國憲法 Daehanminguk Heonbeop)(英文:Con
  • 锡克锡克帝国,为南亚地区曾经存在的一个国家,存在时间为1799年至1849年。领土包含今天的巴基斯坦北部,以及印度西北部的小部分地区。首都位于古吉兰瓦拉。锡克帝国首任君主为兰季德
  • 王 增王增(?-?),字方川、号芳洲、西霞,浙江绍兴府会稽人,清朝政治人物,榜眼及第。乾隆三十六年(1771年),登进士一甲第二名,授翰林院编修。乾隆四十五年,任会试同考官。乾隆五十年,降职任河南祥符
  • 朝鲜电脑研究中心朝鲜电脑研究中心(韩语:조선콤퓨터쎈터,简称KCC)是朝鲜民主主义人民共和国信息技术产业的中心基地,位于朝鲜平壤市万景台区域光复大街,于1990年10月24日成立。1996年,朝鲜政府将该
  • 尼泊尔共产党(联合马列)已消亡 已放弃共产主义意识形态 已消亡 已放弃共产主义意识形态 已消亡 已放弃共产主义意识形态 已消亡 已消亡 已放弃共产主义意识形态 尼泊尔共产党(联合马列)(尼泊尔
  • 埼玉县第10区埼玉县第10区是日本众议院的选区,设立于1994年。北海道 13 | 山形县 4 | 静冈县 9 | 岛根县 3 | 大分县 4福井县 3 | 山梨县 3 | 德岛县 3 | 高知县 3 | 佐贺县 3青森县 4 |