跨语检索

✍ dations ◷ 2024-09-20 12:09:29 #自2017年10月带有失效链接的条目,信息检索,图书资讯科学,计算机科学,资讯科学

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》。跨语检索意指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引、分类、搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC),一开始是附属于 TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)。NTCIR会议主要是由日本学术振兴会(JSPS)、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

根据陈信希和陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

相关

  • 外科医师人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学外科学是现代医学的一个科目,主要研究
  • 异体字表《异体字表》(variant character table)是中华民国教育部编制之异体字字表,位列《常用国字标准字体表》、《次常用国字标准字体表》和《罕用字体表》之后,简称“丁表”。最新
  • 农林水产大臣农林水产大臣(日语:農林水産大臣/のうりんすいさんだいじん Nōrin suisan daijin),简称农水相或农相,是日本的国务大臣,为农林水产省的最高长官。农林水产大臣管辖日本农林水产行
  • 阴性书写阴性书写(Écriture féminine)是一源自法国的女性主义文学理论。此名词首先为爱莲·西苏(Hélène Cixous) 于〈梅杜莎的嘲笑(The Laugh of the Medusa)〉(1975)中所用,她主张女
  • 济徐高速公路济徐高速公路是山东省和江苏省之间的一条高速公路,山东段编号S33,江苏段编号S69,起点在济南市,终点在徐州市,其中济南至东平段属于济广高速公路的一部分,于2016年12月28日全线通车
  • 高氯酸亚铁高氯酸亚铁是一种无机化合物,化学式为Fe(ClO4)2。其六水合物易溶于水,溶解度为98 g(0°C)。高氯酸亚铁易潮解且易氧化,需密封保存。
  • 翻译风波《翻译风波》(The Interpreter)是一部在2005年上映的美国政治惊悚电影(英语:Political thriller),由薛尼·波勒执导,妮可·基德曼、西恩·潘和凯瑟琳·基纳等人主演。此片是薛尼·
  • 泽口千惠泽口千惠(1975年5月21日-)是日本的女性声优,隶属于Across Entertainment事务所,日本东京都出身。丈夫是同为声优的野岛健儿,两人间有两个小孩(头胎:女儿;第二胎:男儿)。
  • 凡西凡西(英语:Fancy)是加勒比海岛国圣文森特和格林纳丁斯圣文森特岛夏洛特区的一个城镇,也是该国最北的聚居地,位于该岛北海岸,靠近该国最北点。Owia位于凡西的东南部。
  • 营养枝营养枝(vegetative branch),又叫直立枝,为一株植伸长的枝条,生长快速,直立,本身不会开花,必须在第二年新生的枝条才会正常开花,农用时会消耗养份,家用又会破坏树型,故将其剪除。但因其