文本挖掘

✍ dations ◷ 2025-04-27 00:22:35 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 结核关节炎结核病(Tuberculosis,又称TB)为结核杆菌感染引起的疾病。结核通常造成肺部感染,也会感染身体的其他部分。大多数感染者没有症状,此型态感染称为潜伏结核感染(英语:Latent tuberculo
  • 经济在古希腊的经济中,由于希腊贫瘠的土地,农业极其重要.到了公元前6世纪,工艺和贸易(主要是海上贸易)开始发展,然后变得重要。经济这个概念在古希腊跟现代并不相同。 希腊语oikonomia
  • 琉球语琉球语(冲绳语:ルーチューグチ),又称岛言叶(しまくとぅば),属日本琉球语系,分布在冲绳县、鹿儿岛县奄美群岛,是对琉球群岛(包括奄美群岛及冲绳群岛)一系列本土语言的统称。由于各种琉球
  • 雅利安人种雅利安人种或译为亚利安人种,是在十九世纪晚期至二十世纪中期划分出的一个人种,属高加索人种,该人种身材较高大,淡色皮肤,面长多毛,鼻骨高窄,瞳孔颜色浅,虹膜多成浅灰至蓝色,发色多变
  • 法国文学法语文学(法语:Littérature française)是指用法语写成的文学,有时特指法国人用法语写成的文学,也可以指法国文学。现代法国人的起源非常复杂,主要由凯尔特人、日耳曼人和罗曼人
  • 土库曼面积家用电源国家领袖国内生产总值(购买力平价) 以下资讯是以2016年估计国内生产总值(国际汇率) 以下资讯是以2017年估计人类发展指数 以下资讯是以2018年估计立国历史土库曼斯
  • 工学工程学、工程科学或工学,是通过研究与实践应用数学、自然科学、社会学等基础学科的知识,以达到改良各行业中现有材料、建筑、机械、仪器、系统、化学和加工步骤的设计和应用方
  • 地方性克汀病先天性碘缺乏症候群(又称矮呆病、克汀病、呆小病)是指因产妇对碘的摄取不足,使得婴儿先天性缺乏甲状腺激素(先天性甲状腺机能低下症),而导致严重阻碍身心发展的一种症状。一般通过
  • 中俄勘分西北界约记《中俄勘分西北界约记》,亦称《塔城议定书》、《塔城界约》,是俄罗斯帝国与清朝签订的割占中国西北地区领土(今称外西北)的不平等条约。今由于苏联解体,全境归属于中亚国家。这地
  • 韩国国际广播电台坐标:35°50′00″N 126°50′00″E / 35.83333°N 126.83333°E / 35.83333; 126.83333韩国国际广播电台(韩语:KBS 월드 라디오,简称韩广)是大韩民国的官方国际广播电台,也是韩国