文本挖掘

✍ dations ◷ 2025-10-25 18:37:06 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 勿加泗勿加泗是印度尼西亚的城市,由西爪哇省负责管辖,位于该国东南部爪哇岛西部,面积210.49平方公里,2010年人口2,378,211,人口密度为每平方公里11,298人。泗水万隆
  • 千叶大学千叶大学是日本的一所国立大学,位于千叶县千叶市。 本部地址是千叶市稻毛区弥生町1-33。日文中简称:千叶大(ちばだい, chibadai) 而其他三个校区分别为于:亥鼻、松戸、柏之叶。
  • 巴哈伊信仰巴哈伊信仰(波斯语:بهائیت‬‎ Bahá'iyyat, 阿拉伯语:(阿拉伯文)‎ Bahá'iyya /bəˈhaɪ/;或称巴哈伊教,简称巴哈伊,旧译“大同教”),其基本教义可概括为“上帝唯一”、“宗
  • 古大气层古大气层是在过去的地质时期的大气层,特别是地球大气层,在非特别指定的时刻。地球古大气层的构成储存在地质里,可以从现今对具有代理性的物质,例如氧化铁的丰度、木碳和树叶化石
  • 氯硝西泮氯硝西泮(Clonazepam),常见商品名“Klonopin”,为一种苯二氮䓬类镇定剂,常用于治疗及预防癫痫发作、恐慌症,以及静坐不能。本品可以口服,药物会在服药后1小时内作用,效果可维持6至12
  • 海王星br /外天体海王星外天体 (Trans-Neptunian object,TNO)是太阳系中轨道平均距离比海王星的半长轴,30.1AU还要长的任何小行星等天体。通常,海王星外天体可以进一步分为传统和共振柯伊伯带天体
  • 汉剧汉剧指中国戏曲的几个剧种。被称为汉剧剧种有:
  • 少数民族语言日本语言是对日本国土使用的所有语言的统称。日本全国最通用的一种语言是日语,在日本国内具有共通语的地位。然而,在琉球群岛,存在着一系列与日语难以互通的琉球语。而在北海道
  • 英萨利英萨利(高棉语:អៀង សារី,罗马化:Ieng Sary;1925年10月24日-2013年3月14日),又译英沙里,红色高棉高层人物之一,曾任红色高棉政权副总理兼外交部长。英萨利于1925年10月24日出生
  • 东北大鼓东北大鼓是中国曲艺曲种之一,起源并流行于中国东北地区,因一度盛行于沈阳,故曾有“奉天大鼓”之称。东北大鼓最初的表演形式是演唱者一人操小三弦自行伴奏说唱,并在腿上绑缚“节