文本挖掘

✍ dations ◷ 2025-09-13 16:07:07 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 联合国环境署联合国环境署,又称为联合国环境规划署(英语:United Nations Environment Programme, UNEP;或 UN Environment),是联合国专责环境规划的常设部门。它的任务在于协调联合国的环境计
  • bspan style=color:black;⑯/span/b坐标:40°13′00″N 26°26′00″E / 40.216667°N 26.433333°E / 40.216667; 26.433333达达尼尔海峡(希腊语:Δαρδανέλλια,转写:Dardanéllia),土耳其称恰纳卡莱海峡(土
  • 纳米技术 (期刊)纳米技术(英语:Nanotechnology),是一份由英国物理学会出版社(英语:IOP Publishing)出版的学术期刊,实行同行评审,每周出刊。该刊涵盖纳米技术的所有领域。根据2015年汤森路透的期刊引
  • 迪特·拉姆斯迪特·拉姆斯(德语:Dieter Rams,1932年5月20日-)为著名德国工业设计师,出生于德国黑森邦威斯巴登市,与德国家电制造商百灵(博朗)(Braun)和机能主义设计学派有很密切的关系。自1943年至1
  • 太阳风太阳风(英语:solar wind)特指由太阳上层大气射出的超高速等离子体(带电粒子)流。非出自太阳的类似带电粒子流也常称为“恒星风”。在太阳日冕层的高温(几百万开氏度)下,氢、氦等原子
  • 玉林通琇玉林通琇(1614年-1675年),字玉林、玉琳,世称玉琳国师。江苏江阴人,清朝佛教临济宗高僧。玉林通琇早年投磬山圆修出家受具足戒,传临济宗。曾住浙江武康报恩寺,后奉召入京举扬大法,受大
  • 刘姝威刘姝威(1952年-),黑龙江哈尔滨人,中央财经大学中国企业研究中心主任,研究员。2001年,以一篇600字的短文《应立即停止对蓝田股份发放贷款》,提出对蓝田股份提出了质疑,并最终导致蓝田
  • 古晋古晋(马来语:Kuching)通称“古晋市”,是马来西亚砂拉越州的首府和马来西亚自1988年以来的第四大城市、东马最大;综合马来西亚及印尼2010年人口调查,在婆罗洲全岛境内,古晋居民数量
  • 平江平江县(英文:Pingjiang county,赣语平江方言标准音:/p'iɑŋ35 kɔŋ55 ʃʊæn33/)),别称汨源、昌江、汉昌和天岳,位于中国湖南省东北部,是岳阳市带管的县级行政区,县政府驻地汉昌镇
  • 以色列经济以色列经济发达。2015年,在联合国人类发展指数排名中,以色列在188个国家中名列第18,被列入高度开发国家。以色列的主要产业包括了高科技制品、金属制品、电子和生物医疗仪器、