跨语检索

✍ dations ◷ 2025-04-26 09:35:46 #自2017年10月带有失效链接的条目,信息检索,图书资讯科学,计算机科学,资讯科学

跨语检索,或称“跨语资讯检索”(Cross-Language Information Retrieval,CLIR),其定义采用 Oard, D. W.在1997年发表的文章《Cross-Language Information Retrieval Defined》。跨语检索意指使用者使用某种自然语言的检索词汇检索由另一种语言表达的文件。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息检索系统当作实验对象,智能检索系统背后有多国语言语料库的支援,借由该系统,Salton 使用英文为主要检索词汇的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引、分类、搜寻,和检索等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称 DARDA ] 合作举办“文字检索会议”(The Text REtrieval Conference, TREC),一开始是附属于 TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery,ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会,与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召开第一次 NII Test Collection for IR Systems program 会议(NTCIR)。NTCIR会议主要是由日本学术振兴会(JSPS)、日本国家科学资讯系统中心(NACSIS),以及日本国立情报学研究所(NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛”(Cross Language Evaluation Forum,CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文本信息检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图像检索(Cross-Language Image Retrieval] )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

根据陈信希和陈光华的文章,目前跨语检索相关技术,可分成三大类,分述如下:

相关

  • 阴道镜阴道镜,一种医用内窥镜,用于女性阴道、子宫颈以及外阴的医学诊断观察。阴道镜于1925年由德国医师汉斯·欣塞尔曼(Hans Hinselmann)发明。亦有一种特制的阴道镜用于强奸案的证据
  • 曼尼希反应曼尼希反应(Mannich反应,简称曼氏反应),也称作胺甲基化反应,是含有活泼氢的化合物(通常为羰基化合物)与甲醛和二级胺或氨缩合,生成β-氨基(羰基)化合物的有机化学反应。一般醛亚胺与α
  • 内布拉斯加大学林肯分校内布拉斯加大学林肯分校(University of Nebraska–Lincoln,简称UNL、NU,又译内布拉斯加-林肯大学)于1869年根据《土地拨赠法案》创建。是内布拉斯加大学的最主要成员及最早的分
  • 癫痫相关疾病癫痫发作(epileptic seizure 或epileptic fit,有时在文献或新闻只简单称为 seizure 或fit) 是因为脑中的过度的神经振荡而出现的医学病征。 这种脑内异常的外溢效应(outward eff
  • 功能主义在建筑中,功能主义(英语:functionalism)是指建筑应该仅根据其用途和功能进行设计的原则。按照此原则设计的建筑称为功能主义建筑。该原则在行业内是一个令人困惑且有争议的问题,
  • 施罗德投资施罗德投资集团(Schroders plc),在世界金融市场上拥有超过200年经验,总部位于伦敦。其股份在伦敦证券交易所上市,更成为富时100指数成份股。施罗德有两类股票:投票权(SDR.L)以及非投
  • 民俗艺术民间艺术是艺术的一种。指的是与特定文化脉络或社区密切关联,受到传统方法或原则引导而产出的艺术与手工艺术,包含绘画、陶瓷、织品、雕塑与其他艺术形式。意义与手工艺有点接
  • 纳什均衡在博弈论中,纳什均衡(英语:Nash equilibrium,或称纳什均衡点)是指在包含两个或以上参与者的非合作博弈(Non-cooperative game)中,假设每个参与者都知道其他参与者的均衡策略的情况下
  • 并购并购,意即合并与收购(Mergers and acquisitions,缩写 M&A),是策略管理、企业财务及管理的术语,指不使用创建子公司或者合资公司的方式,通过购买、售卖、拆分以及合并不同公司或者类
  • 利氏冷凝管利氏冷凝管(德语:Liebigkühler,又译为李必氏冷凝器、直型冷凝管),是一种在实验室中常见到的器材,在很早以前即被发明,不过由19世纪时的德国化学家尤斯图斯·冯·李比希(Justus von