文本挖掘

✍ dations ◷ 2025-11-14 21:47:47 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 盐酸异丙嗪盐酸异丙嗪(英语:Promethazine,又名盐酸普鲁米近(Promethazine Hydrochloride)或非那根(Phenergan))是一种常见的止咳药物,为第一代抗组织胺药,能竞争性阻断组胺H1受体,对抗组胺所
  • 年表古罗马年表按照时间先后顺序,列举古罗马重要历史事件。时间跨度从古罗马建立至拜占庭帝国最后试图收复罗马。
  • 平方公里平方千米(符号为km²,英语:Square kilometre)是面积的公制单位(SI Unit),其定义是“边长为1千米的正方形的面积”。平方尧米、平方佑米(Ym²) 平方泽米、平方皆米(Zm²) 平方艾米(Em²
  • Emmy Noether埃米·诺特(德语:Emmy Noether,德语:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentiu
  • 艾伯塔省阿尔伯塔省(英语、法语:Alberta),简称艾省、亚省、阿省,是加拿大的一个省。阿尔伯塔是加拿大西部草原三省之一,西部与不列颠哥伦比亚相邻,东部与萨斯喀彻温相邻,北部与西北地区相邻,
  • 天蛾见内文天蛾科(学名:Sphingidae)是鳞翅目的一科,科名取自希腊语“Sphinx”,即希腊神话中的怪物“斯芬克斯”。 天蛾科下辖200多个属,约1,450个品种。本科物种大多数于热带生活,但其
  • 印第安斯普林斯印第安斯普林斯(英语:Indian Springs)是位于美国加利福尼亚州洛杉矶县的一个非建制地区。该地的面积和人口皆未知。印第安斯普林斯的座标为34°19′50″N 118°20′01″W / 34.
  • 本顿本顿县(英语:Benton County)是美国华盛顿州南部的一个县,北、东、南为哥伦比亚河所围绕,南邻俄勒冈州。面积4,559平方公里。根据美国2010年人口普查,共有人口175,177人。 县治普罗
  • 西雅图邮讯报《西雅图邮讯报》(Seattle Post-Intelligencer)是一份报道美国华盛顿州西雅图及其周边地区的网络报纸。其前身是最早创建于1863年的纸质报纸,是美国华盛顿州历史最悠久的报纸。
  • 秦皇岛-深圳205国道(或“国道205线”、“G205线”)是在中国的一条国道,起点为河北省秦皇岛市山海关区,终点为广东省深圳市罗湖区东门晒布路口,全程3160千米。注:在1993年之前,205国道的终点为