文本挖掘

✍ dations ◷ 2025-04-04 14:41:04 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • NMDARN-甲基-D-天门冬胺酸受体(英语:N-methyl-D-aspartate receptor,简称NMDA受体或NMDAR)为麸胺酸盐受体,是一个主要的分子装置,控制突触的可塑性与记忆功能。NMDA受体是一种离子型麸
  • 内肛动物门内肛动物门(学名:Entoprocta)是动物界的一个门。分类上曾一度把它们与外肛动物门合称为苔藓动物门(Bryozoa)。后来发现内肛动物为假体腔动物,而外肛动物为真体腔动物,现行分类已将
  • 查谟和克什米尔中央直辖区查谟和克什米尔(Jammu and Kashmir)是一个位于印度北部的中央直辖区,分为查谟和克什米尔山谷两个专区,为印度控制的克什米尔的一部分。该地南面与旁遮普和喜马偕尔邦接壤,东北部
  • 卟啉症卟啉症(英语:Porphyria,又称噗瑳症、紫质症或吡咯卟啉症),是因卟啉堆积而引起的一系列疾病,会对皮肤及神经系统造成负面影响。影响神经系统的这一类卟啉症,症状发作十分迅速,持续时
  • 不丹2019冠状病毒病不丹疫情,介绍在2019新型冠状病毒疫情中,在不丹发生的情况。2020年3月6日,不丹宣布确诊首例新冠肺炎病例。患者为美国游客,3月2日从印度进入不丹。
  • 黄进黄进可以指:
  • 吉尔斯顿查尔斯顿(Charleston)可以指:
  • 105国道坐标:38°35′36″N 116°49′59″E / 38.5934585°N 116.8330842°E / 38.5934585; 116.8330842105国道(或“国道105线”、“G105线”),又名京澳线,京澳公路。是在中国的一条国
  • 马岭河峡谷坐标:25°08′01″N 104°57′19″E / 25.13361°N 104.95528°E / 25.13361; 104.95528马岭河峡谷位于中华人民共和国贵州省黔西南州兴义市境内,位于兴义市区以东北6公里,南盘
  • 犹太教重建派犹太教重建派(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Ta