文本挖掘

✍ dations ◷ 2025-08-03 06:40:29 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 面肩胛肱型肌营养不良症面肩胛肱型肌营养不良症(英语:Facioscapulohumeral muscular dystrophy, Landouzy-Dejerine, FSHMD, FSHD or FSH),先影响面部、肩胛骨和上臂骨骼肌的常染色体显性肌肉萎缩症。
  • 法国文学法语文学(法语:Littérature française)是指用法语写成的文学,有时特指法国人用法语写成的文学,也可以指法国文学。现代法国人的起源非常复杂,主要由凯尔特人、日耳曼人和罗曼人
  • 里查·塞拉里查·塞拉(英语:Richard Serra,1939年11月2日-),美国极简主义雕塑家和录影艺术家,以用金属板组合而成的大型作品闻名。塞拉同时也参与了“Process Art”运动。塞拉出生于美国加州
  • 十九酸十九酸(Heptadecanoic acid),分子式CH3(CH2)17COOH。不饱和脂肪酸
  • 隔离但平等隔离但平等(英语:Separate but equal)是源自于19世纪美国黑人种族隔离政策的一种表现形式,它试图通过为不同种族提供表面平等的设施或待遇,从而使实施空间隔离的做法合法化,迟至20
  • 原台南山林事务所坐标:22°59′29″N 120°12′15″E / 22.991272°N 120.204125°E / 22.991272; 120.204125原台南山林事务所位于台南市中西区,民国九十二年(2003年)5月13日台南市政府公告为市
  • 考克尼考克尼(英语:Cockney)一词意指英国伦敦的工人阶级,尤其可以指伦敦东区以及当地民众使用的考克尼方言(即伦敦方言)。这个词也可指在伦敦的工人阶级中非常常见的“考克尼口音”,即伦
  • 海达瓜依海达瓜依(Haida Gwaii,源自于海达语:X̱aayda gwaay,意指海达人之岛),原名夏洛特皇后群岛(英语:Queen Charlotte Islands),是加拿大西海岸的一座群岛,由较北的格拉汉姆岛和较南的莫尔斯
  • 严华严华(1912年-1992年1月11日),本名严文新、严运华,中国电影配乐作曲家。活跃于20世纪30年代-40年代的上海。主要作品有《孟姜女》、《李三娘》、《三笑》、《董小宛》、《西厢记》
  • NDB无方向性信标台(NDB, Non-Directional Beacon)通常是一个放置在已知地点的无线电发射装置,在航空或者航海方面进行定位。NDB与较新式的VOR、TACAN等导航台相比,缺少测距等功能。