文本挖掘

✍ dations ◷ 2025-10-05 14:32:33 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 第一手文献一次文献,又称初级资料、首次资料、一级来源或称第一手资料,是文献学、图书馆学、地理学中指用来做为证据的引文资料, 写作者将其来源方式可以区分成:依据研究资料及方法的不同,
  • 牙套牙齿矫正器,又称齿列矫正器或俗称的牙套、牙箍,是齿列矫正所使用的一种装置,用来矫正牙齿至适当的咬合位置。矫正器通常被用来改善的咬合不良,包括戽斗、龅牙、前后牙错咬、开咬
  • 巨人安德烈安德烈·勒内·罗西莫夫(法语:André René Roussimoff,1946年5月19日-1993年1月27日),通常被称为巨人安德烈(André the Giant),是世界摔角娱乐(WWE)旗下已故的法国职业摔角选手、演员
  • 黄休复黄休复,字归本,一作端本。北宋蜀(今属四川)人。曾校《春秋》三传。热衷于道术,曾受业于处士李谌,隐居不仕,靠卖丹药养家。精通画学,收藏甚富,著《益州名画录》三卷。另有《茅亭客话》
  • 葛根汤葛根汤记于伤寒论:‘太阳病,项背强几几,无汗,恶风,葛根汤主之。’属解表剂。有发汗解毒,升津舒筋之功用。葛根四两 麻黄三两(去节) 桂枝二两(去皮)芍药二两(切) 甘草二两(炙) 生姜三两(切)大
  • 保罗·史塔曼兹保罗·史塔曼兹(英文:Paul Stamets,1955年7月17日-)是美国的一名真菌学家、作家与真菌修复和药用真菌(英语:Medicinal fungi)的提倡者。保罗·史塔曼兹于1979年毕业于长青州立大学(英
  • 福岛核灾除特别注明外,此条目或章节的时间均以日本标准时间(UTC+9:00)为准。福岛第一核电站事故(日语:福島第一原子力発電所事故/ふくしまだいいちげんしりょくはつでんしょじこ Fukushim
  • 护理学院北京大学护理学院,是北京大学医学部的一个下属学院,始建于1984年,是中国恢复高等护理教育后首批建立的高等护理教育院系之一,现任院长为尚少梅。1999年7月,以北京医科大学护理系
  • 熊猫直播熊猫直播是中国大陆一个视频直播网站,于2015年10月20日正式公测,王思聪出任首席执行官。熊猫直播于2019年3月关闭网站,宣布倒闭。2019年3月传出熊猫直播将申请破产的消息,透露了
  • 鄱阳湖鄱阳湖,是中国的一处淡水湖,位于江西省北部、长江南岸,鄱阳湖上承赣、抚、信、饶、修五河之水,下接中国第一大河——长江。鄱阳湖介于北纬28度22分~29度45分,东经115度47分~116度45