文本挖掘

✍ dations ◷ 2025-05-19 03:41:29 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 文昌文昌可指:
  • 地球相似指数地球相似指数(Earth Similarity Index,缩写作ESI)是一个标定其他行星和地球相似程度的指数,范围在0和1之间,地球自身的相似指数以1表示。地球相似指数是针对行星而设计,但也可以用
  • 皇太子储君,君主的法定继承人。根据君主的不同称谓又称皇储、王储或大公储。储君在君主逝世、禅位、逊位后,成为继任君主。是世袭君主制重要的组成部分。在现存的君主制国家中,通常由
  • 震颤性谵妄震颤性谵妄(Delirium tremens)也称为是酒毒性谵妄,是形容因戒酒而引起的谵妄状态。若有这个状况发生,通常在三天后会有戒断症状的产生,并可能持续二至三天 。患者也有机会产生幻
  • 趾型趾型是在生物学中对于手掌和脚趾数量排列。趾型的英文单词dactyly来源于希腊语δακτυλος,即手指。 由于生物趾数和形态的不同,趾型可以作为生物的分类依据。五趾型指每
  • 北竿岛北竿乡(福州语平话字:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Gentium
  • 曹翠芬曹翠芬(1944年4月6日-),出生于上海,中国大陆女演员,北京电影制片厂一级演员。毕业于北京电影学院表演系。参演《大红灯笼高高挂》、《孤儿泪》、《杂嘴子》等电影。1997年被评为“
  • 加利福尼亚淘金热“加利福尼亚州淘金潮”(California Gold Rush)(1848年-1855年),于1848年1月24日开始,事源是在沙特磨坊发现黄金。一开始消息传播得较慢,主要是当地人开始淘金,但到1849年消息传开后,
  • 望城区望城区为中国湖南省长沙市市辖区,2011年6月21日设立。地理上,望城位于湖南中部偏东,长沙城区西北部,周边与开福区、岳麓区、长沙县、宁乡市、湘阴县、汨罗市和益阳市赫山区相邻
  • 登连片登连片,是汉语官话方言胶辽官话的一片区,主要分布于辽东半岛、山东半岛、长山群岛、庙岛群岛,此外在黑龙江虎林还有方言岛。内分大岫小片、烟威小片和蓬龙小片三小片区。大连市