撷取

✍ dations ◷ 2025-04-24 23:56:07 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 限制性内切酶限制酶(英语:restriction enzyme)又称限制内切酶或限制性内切酶,全称限制性核酸内切酶,是一种能将双股DNA切开的酶。切割方法是将糖类分子与磷酸之间的键结切断,进而于两条DNA链上
  • 体外In vitro是拉丁语中“在玻璃里”的意思,意指进行或发生于试管内的实验与实验技术。更广义的意思,则指活生物体之外的环境中的操作。常见的例子是人工受精。在细胞生物学等领域
  • 格兰德河/北布拉沃河格兰德河(英语:Rio Grande)是位于北美南部的河流,在墨西哥被称为布拉沃河(西班牙语:Río Bravo),更正式的称呼为北布拉沃河(西班牙语:Río Bravo del Norte)。全长3034公里,是美国第五长
  • 美洲美洲(英文:Americas),又称亚美利加、亚美利加洲,简称美洲,位于西半球,自然地理分为北美洲和南美洲,面积达4254.9万平方公里,占地球地表面积的8.3%、陆地面积的28.4%。人文地理则将之
  • 新政罗斯福新政(The New Deal)是指1933年富兰克林·罗斯福(小罗斯福)就任美国总统后所实行的一系列经济政策,其核心是三个R:救济(Relief)、复兴(Recovery)和改革(Reform),因此有时亦称三R新政
  • 高尔吉亚高尔吉亚(希腊文:Γοργίας,约公元前487年-前376年),希腊诡辩学派学者、前苏格拉底时期的哲学家及修辞学家,原居于西西里伦蒂尼。与普罗塔哥拉同为首批诡辩学者。他最为人所
  • 希罗多德希罗多德(古希腊语:Ἡρόδοτος),前5世纪(约前484年-前425年)的古希腊作家,他把旅行中的所闻所见,以及波斯阿契美尼德帝国的历史纪录下来,著成《历史》一书,成为西方文学史上第一
  • 排版在固定版面内,排版摆置各种不同类型的数据,如数字、文字、表格、图形和影像等等,以最合适的方法呈现。印刷品中的版面安排,网页文案的编排,若要引人注意和阅读上的舒适,皆应留意排
  • 万维网万维网(英语:World Wide Web)亦作WWW、Web,是一个透过互联网访问的,由许多互相链接的超文本组成的系统。英国科学家蒂姆·伯纳斯-李于1989年发明了万维网。1990年他在瑞士CERN的
  • 性派对性派对又叫性爱趴,多指交换伴侣或群交等有关性行为的联欢会。不论何种形式的性派对往往都会在民众中造成道德恐慌,因为有媒体不断宣传性派对正在青少年间流行。一个交换伴侣派