文本挖掘

✍ dations ◷ 2024-12-23 00:30:32 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 阿什莫尔和卡捷群岛阿什莫尔和卡捷群岛(Ashmore and Cartier Islands)是澳大利亚的海外领地,位于澳大利亚和印度尼西亚之间。无人口居住,陆地总面积约114400平方米。1印度尼西亚的部分地区和东帝汶
  • 三叠纪-侏罗纪灭绝事件三叠纪-侏罗纪灭绝事件(Triassic–Jurassic extinction event)是显生宙五大生物集群灭绝事件之一,发生于三叠纪与侏罗纪之间,大约是1亿9960万年前(另一说法是2亿140万年前)。这次
  • 郭公虫总科郭公虫总科(学名:Cleroidea)是鞘翅目多食亚目的扁虫下目之下六个总科的其中一个小昆虫总科,物种数约10000种。大部分的成员具有纤细、柔软的翅鞘,并覆有短毛或鳞片。本总科包括以
  • 登陆婆罗洲战役是第二次世界大战中同盟国在西南太平洋战区最后一场主要军事行动,在一系列由5月1日至7月21日期间的两栖登陆行动中,由莱斯里·莫希德(英语:Leslie Morshead)陆军中将(英
  • 准格尔旗准格尔旗(蒙古语:.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag Tig","Menk Har_a Tig","Menk Scnin Tig","Oyun Gurban Ulus
  • 拉美及加勒比国家共同体拉美和加勒比国家共同体(英语:Community of Latin American and Caribbean States,西班牙语:Comunidad de Estados Latinoamericanos y Caribeños, CELAC, 葡萄牙语:Comunidade
  • 西乌克兰人民共和国西乌克兰人民共和国(乌克兰语:Західно-Українська Народна Республика、乌克兰语:Zakhidno-Ukrayinska Narodna Respublyka或简称ЗУНР
  • 玛瑞娜戴尔瑞玛瑞娜戴尔瑞(英语:Marina Del Rey)是位于美国加利福尼亚州洛杉矶县的一个人口普查指定地区。玛瑞娜戴尔瑞的座标为33°58′46″N 118°27′10″W / 33.97944°N 118.45278°W
  • 1947年国防法1947年国家安全法案(英语:National Security Act of 1947)是第二次世界大战后美国政府在军事和情报体系做出的重大战略调整。该法案由第80届国会制定,1947年3月3日,时任参议院军
  • 袁州袁州,隋朝时设置的州。开皇十八年(598年)废安成郡,设袁州,辖宜春县、萍乡县和新喻县,治所在宜春县(江西省宜春市袁州区)。北宋开宝八年(975年),万载县由筠州划入。雍熙元年(984年),析宜春