文本挖掘

✍ dations ◷ 2025-12-06 10:19:04 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • HNCO异氰酸分子式HNCO,为氰酸的互变异构体。异氰酸可以通过C3H3N3O3 → 3 HNCO由三聚氰酸制取。加入水时,通过HNCO + H2O → CO2 + NH3分解为CO2及NH3。
  • 原生质球原生质球(Spheroplast)是指细菌、酵母,或真菌细胞失去部分细胞壁后,其余部分在表面张力作用下形成的球状体。原生质球对渗透压敏感,置于低渗透压溶液中,原生质球将会破裂。原生质
  • 詹姆斯·弗雷泽·司徒塔特詹姆斯·弗雷泽·斯托达特爵士,FRS,FRSE,FRSC(英语:Fellow of the Royal Society of Chemistry)(英语:Sir James Fraser Stoddart,1942年5月24日-),苏格兰化学家,2016年凭借分子机器的设
  • 萨德侯爵唐纳蒂安·阿尔丰斯·弗朗索瓦·德·萨德(法语:Donatien Alphonse François de Sade,1740年6月2日-1814年12月2日),通称萨德侯爵(法语:Marquis de Sade),法国贵族出身的哲学家、作家
  • 科罗拉多泉市科罗拉多斯普林斯(英语:Colorado Springs)是美国科罗拉多州的第二大、美国第49大城市,也是艾尔帕索县的首府。根据美国人口普查局2005年的估计,科罗拉多斯普林斯市约有人口36万98
  • 大同区坐标:25°03′58″N 121°30′56″E / 25.065986°N 121.515514°E / 25.065986; 121.515514大同区位于中华民国台北市西侧,与新北市三重区隔淡水河相望,是台北市最早发展的区
  • 科连特斯省科连特斯省(Corrientes)为南美国家阿根廷二十三省之一,位于阿根廷北部(右图红色位置),该省首府为科连特斯(Corrientes)。1自治市
  • 乔治·克鲁尼乔治·蒂摩西·克鲁尼(英语:George Timothy Clooney,1961年5月6日-)生于美国肯塔基州莱辛顿,是知名的电影演员和导演、编剧、制片人与社会活动家,同时也是联合国亲善大使、时代百大
  • 暴君暴君,可能指:
  • 第三度房室传导阻滞第三度房室传导阻滞(3° AV Block),又称为完全性房室传导阻滞(Complete Block),指心房的激动波无法传入房室结。在此时,心室需自行发出激动波来使心室收缩。可将人工节律器植入