文本挖掘

✍ dations ◷ 2025-07-14 04:13:33 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 酒精乙醇(英语:Ethanol,结构简式: CH 3
  • 托(符号为Torr),与毫米汞柱(符号为mmHg)近乎等价,为压强、压力的单位,但并非国际单位制单位 (SI unit) 的成员之一。原本的 1 mmHg 是指“将幼细直管内的水银顶高一毫米之压力”,而正
  • 美国疾病控制中心美国疾病控制与预防中心(英语:Centers for Disease Control and Prevention,缩写为CDC)是美国卫生与公众服务部所属的一个机构,总部设在乔治亚州亚特兰大。作为美国联邦政府行政
  • KIC 8462852KIC(英语:Kepler_Input_Catalog) 8462852是一颗F-型主序星,又依研究它的天文学家塔贝萨·S·博雅吉安 (Tabetha S. Boyajian)的名字命名为Tabby星(Tabby's star),或WTF星(WTF star,WTF
  • 凯布利凯布利是一位埃及神话中的神祇,象征日出及再生。因为太阳升起与落下和圣甲虫滚粪球及抱卵有一定的联系,象征物便是圣甲虫。其名称(普遍译为Khepri)与埃及语动词“kheper”有关,意
  • 贝卡里亚切萨雷·贝卡里亚,或译贝加利亚(Cesare Beccaria 1738年3月15日-1794年11月28日)是意大利法学家、哲学家、政治家。他以作品《论犯罪与刑罚》(1764年)而闻名,在此书中他深刻批评刑
  • 行政诉讼法行政法是法律中,有关国家行政权运作的国内公法总称。行政法的定义系由日本学者提出,在中文法律领域中广受引用。行政法涉及到行政机关执行职务时所适用之各项法律,在各法律部门
  • 鹩哥Gracula indica (but see text)鹩哥(学名:Gracula religiosa)是最善于学习人类语言的动物,又称之为又名了哥或九官鸟,据说一只年轻的鹩哥只需一星期便能学会一句简单的话。栖息在
  • 莉丝·莎兰德莉丝·莎兰德(Lisbeth Salander)与麦可·布隆维斯特是史迪格·拉森的系列小说“千禧年三部曲”中的人物。她在2005年小说《龙纹身的女孩》中作为主角初次登场,这本书的瑞典语标
  • 依斯干达公主城依斯干达公主城(马来语:Iskandar Puteri,前称“努沙再也”),是马来西亚柔佛州首府新山的卫星城市,也是州行政中心所在地,隶属于依斯干达公主城市政厅。其面积为367.4平方公里,人口于