文本挖掘

✍ dations ◷ 2025-02-27 20:56:24 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 症状人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学症状(英语:symptom)又称病状,医学术语,在疾
  • 引号؋ ​₳ ​ ฿ ​₿ ​ ₵ ​¢ ​₡ ​₢(英语:Brazilian cruzeiro) ​ $ ​₫ ​₯ ​֏ ​ ₠ ​€ ​ ƒ(英语:Florin sign) ​₣ ​ ₲ ​ ₴(英语:Hryvnia sign) ​ ₭ ​ ₺
  • 休斯敦县休斯顿县 (Houston County, Georgia,Houston读作house-ton)是美国乔治亚州中部的一个县。面积984平方公里。根据美国2000年人口普查,共有人口110,765人。县治佩里 (Perry)。成
  • 志愿役志愿兵役制或称志愿役(又称为募兵制)是指符合条件之人民志愿投入军队,以军人作为职业。人民自愿加入军队的原因众多,可以是基于爱国、宗教意识或兴趣,如义勇兵;或是纯粹为报酬而参
  • 日本黑社会主要指定暴力团极道(日语:極道/ごくどう Gokudō)俗称ヤクザ Yakuza,指日本社会里从事暴力或有组织犯罪活动的人士或团体。“ヤクザ”这一俗称来自日本纸牌游戏花札(玩法一说是
  • 大毗婆沙论《阿毘达磨大毘婆沙论》(梵语:Abhidharma Mahāvibhāṣā Śāstra),又称《阿毘达磨发智大毘婆沙论》、《大毗婆沙论》、《鞞婆沙论》,佛教论书。佛教学者认为它约在公元150年前
  • 战争片战争片是描述战争的电影,可以被视为广义的动作片范围之一,电影情节可能是基于真实历史上的战争或虚构的战争,以制作费多、政策宣传为目标、场面较暴力血腥、枪林弹雨的爆破声光
  • span class=nowrapCePOsub4/sub/span磷酸铈是铈的磷酸盐之一,为一种无机化合物,化学式为CePO4。磷酸铈可由磷酸钠和硝酸铈在溶液中反应得到:氯化铈或硝酸铈和磷酸反应也能得到产物。
  • 第三党派议长:南希·裴洛西(民主党) 多数党领袖(英语:Party leaders of the United States House of Representatives):斯坦利·霍耶(民主党) 少数党领袖(英语:Party leaders of the United Sta
  • 福银高速公路福州-银川高速公路,简称福银高速,中国国家高速公路网编号为G70,途经福建、江西、湖北、陕西、甘肃、宁夏6省,全长2485公里。途经城市:福州、南平、南城、南昌、德安、九江、黄梅、