文本挖掘

✍ dations ◷ 2025-08-24 14:16:18 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 光动力疗法光动力疗法(Photodynamic therapy,简称PDT)是光照治疗的一种,是利用无毒性的光敏物质暴露在特定波长的光下,让该物质对特定癌细胞或疾病细胞产生毒性光毒性而达到治疗效果。光动
  • 民族植物学民族植物学(Ethnobotany)旧译为民俗植物学,是一门探讨生物学、植物学、药理学、人类学等领域的综合学科。民族植物学的目的是纪录、描述和解释人类在文化上(及使用)与植物间的关
  • 综摄综摄(英语:syncretism,又称融合主义)指的是调和或统合信念(如宗教上)的冲突,也可指对于调和或统合所做的努力,例如宗教混合的客观过程。两个以上的宗教在接触与和解后,发展出彼此文化
  • 肾管动物肾管动物(学名:Nephrozoa)是两侧对称动物中一个主要的演化支,包含原口动物与后口动物,为异无腔动物的姊妹群。此一名称最早于2002年被提出,用以指称具有排泄构造的生物。各类肾管
  • 不饱和脂肪酸脂肪酸(英语:Fatty acid)是一类羧酸化合物,由碳氢组成的烃类基团连结羧酸所构成。三个长链脂肪酸与甘油形成三酸甘油酯(Triacylglycerols),为脂肪的主要成分,归于脂类。饱和脂肪酸(Sa
  • EncartaEncarta是微软过往曾推出的数码多媒体百科全书,部分内容集成自ABC百科全书中的科里尔百科全书。Encarta也有在线版,但是在线版只包含有限内容,完整版本是必须购买才能获得的。
  • 吴普吴普(?年-?年),广陵(今江苏江都县)人,与彭城樊阿皆是名医华佗之弟子。华佗通晓养性之术,年纪大时,仍有壮容。他模仿虎、鹿、熊、猿、鸟的动作,创造了五禽戏。他认为“人体欲得劳动,……血
  • 大英帝国运动会英联邦运动会(英语:The Commonwealth Games),是英联邦国家每四年举办一次的运动会。这运动会首次举办于1930年,当时它被称为大英帝国运动会(The British Empire Games)。运动会的名
  • 张 策张策可以指:
  • 基督会基督会(英语:Christian Church (Disciples of Christ))是一个基督教宗派。1811年,西维吉尼亚州的长老会内的汤玛斯·甘贝尔和亚历山大·甘贝尔父子提倡宗派合一,1827年开始组成独