跨语检索

✍ dations ◷ 2025-02-24 00:30:45 #自2017年10月带有失效链接的条目,信息检索,图书资讯科学,计算机科学,资讯科学

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》。跨语检索意指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引、分类、搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC),一开始是附属于 TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)。NTCIR会议主要是由日本学术振兴会(JSPS)、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

根据陈信希和陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

相关

  • 路易十三路易十三(Louis XIII,1601年9月27日-1643年5月14日)是法国波旁王朝国王(1610年-1643年在位)。是亨利四世的长子,生于枫丹白露。幼年由其母玛丽·德·美第奇摄政。1615年与同是孩子的
  • 安妮日记《安妮日记》(荷兰语:Het Achterhuis)由安妮·法兰克所写,此书发行版的内容摘录自安妮在纳粹占领荷兰的时期所写的日记内容,并于战后由她幸存的父亲加以整理出版。其首次发行时的
  • 文莱文莱华人人口约5万人,约占文莱人口9%,大多数是福建闽南人(厦门、金门闽南人为主),当中以福建金门籍居多,约占80%,其次为广东人、客家人、潮汕人、海南人、兴化人等。通用语为闽台片
  • 都市地理学城市地理学是研究在不同地理环境下,城市形成、发展、组合分布和空间结构变化规律的学科,既是人文地理学中聚落地理学的重要分支,又是城市科学群的重要组成部分。一般来讲,城市地
  • 大金川之战大金川之战是指乾隆十二年三月(1747年)辛丑,大金川(治所在今四川阿坝藏族羌族自治州金川县)土司莎罗奔劫持小金川土司泽旺,清廷任命张广泗为川陕总督,前往征讨大金川,为大小金川之役
  • 薛尼·卢梅希德尼·鲁迈特(英语:Sidney Lumet,1924年6月25日-2011年4月9日)是一位美国电影导演,曾多次被提名奥斯卡最佳导演奖,并执导过许多经典电影。
  • 斯蒂芬·梅努钦斯蒂芬·特纳·姆努钦(Steven Terner Mnuchin,i/məˈnuːtʃɪn/ mə-NOO-chin;1962年12月21日-)是美国的一位银行家,现任美国财政部长;曾是电影制片人和对冲基金经理。他出生在一
  • 行为金融学行为金融学(Behavioral Finance,BF),行为经济学的一个研究分支,是金融学、心理学、行为学、社会学等学科相交叉的边缘学科,力图揭示金融市场的非理性行为和决策规律。行为金融理论
  • Ubisoft Blue ByteUbisoft Blue Byte(原名为Blue Byte Software),Ubisoft Blue Byte GmbH(在2017年之前为Blue Byte)是总部位于杜塞尔多夫的德国电玩游戏开发商。该公司由托马斯·赫兹勒(Thomas Her
  • 新戊醇新戊醇,即2,2-二甲基丙醇,是一种有机化合物,是醇类的一种,其化学式为C5H12O或(H3C-)3C-CH2OH. 它是新戊烷或C(CH3)4的醇类衍生物。他是树脂状的结晶性固体,不像其他醇类那么容易