文本挖掘

✍ dations ◷ 2024-09-20 10:36:15 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 法兰克福法兰克福(德语:Frankfurt),正式全名为美因河畔法兰克福(Frankfurt am Main),是德国中西部黑森州的第一大城市,也是德国第五大城。城区拥有73万2688人,含周边城镇约有230万人,而整个法
  • 六氯乙烷六氯乙烷,分子式为C2Cl6。无色斜方有类似樟脑香味的针状结晶。易升华。不溶于水,溶于乙醇、乙醚、氯仿、苯和油类。为氯代烃中毒性最大的一种。对中枢神经有麻醉作用,可损害肝
  • 柏辽兹埃克托·路易·柏辽兹(法语:Hector Louis Berlioz,1803年12月11日-1869年3月8日),又译白辽士,法国作曲家,以1830年写的《幻想交响曲》闻名。柏辽兹的父亲是一名医生,他亦早年学医,1821
  • 查理·马特查理·马特,意译为铁锤查理(古法语、奥克语:Charles Martel;德语:Karl Martell;拉丁语:Carolus Martellus;686年8月23日-741年10月22日),法兰克王国宫相,军事领导人。出生于埃斯塔勒(位于
  • 尼赫鲁大学贾瓦哈拉尔·尼赫鲁大学(印地语:जवाहरलाल नेहरू विश्वविद्यालय,简称JNU)是印度的一家公立大学,位于其首都新德里。在2012年,印度国家评估和评审局给予
  • 八王子市八王子市(日语:八王子市/はちおうじし Hachiōji shi */?)是日本东京都下辖的一个中核市,位于东京市中心以西约40公里的近郊。八王子市位于多摩地区的心脏部位,也是日本第四次首
  • 康普顿散射在原子物理学中,康普顿散射,或称康普顿效应(英语:Compton effect),是指当X射线或伽马射线的光子跟物质相互作用,因失去能量而导致波长变长的现象。相应的还存在逆康普顿效应——光
  • 侏罗纪海岸侏罗纪海岸(Jurassic Coast)位于英国南部英吉利海峡,从东德文埃克斯茅斯奥科姆岩石群一直延伸到东多塞特斯沃尼奇老哈里巨石,总长153千米。2001年入选联合国教科文组织世界遗产
  • 酒文化参数所指定的目标页面不存在,建议更正成存在页面或直接建立下列一个页面(建立前请先搜寻是否有合适的存在页面可以取代):汤饭馔韩国酒文化泛指韩国的酿酒、饮酒的文化。韩国的酒
  • Gorong群岛戈龙群岛(印尼语:Kepulauan Gorong/Gorom)位于瓦图贝拉群岛和斯兰岛之间的一个群岛,地理上属马鲁古群岛。行政区划隶属马鲁古省东斯兰县。于1365年用古爪哇语(英语:Old Javanese)为