文本挖掘

✍ dations ◷ 2025-06-29 05:08:55 #人工智能应用,数据挖掘,计算语言学

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些派生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高质量'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速获取进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于当前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 对文本挖掘的研究还被包含在文本解密的领域中。

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

相关

  • 鸡尾酒疗法鸡尾酒疗法,专指一种治疗艾滋病的方法。它由华裔美籍科学家何大一发明,是目前公认的疗效最佳的艾滋病治疗方法。这项研发使何大一以“艾滋病研究者”(AIDS Researcher)的身份荣
  • 乌泰他尼府乌泰他尼府(泰语:จังหวัดอุทัยธานี,皇家转写:Changwat Uthai Thani,泰语发音:),在泰国北部,他的邻府自北顺时针是那空沙旺府、猜纳府、素攀府、北碧府和达府。华人称
  • 血栓素A2血栓素A2是一种血栓素,常用作血管收缩剂,可以激活血小板、使其聚集,是治愈组织损伤和发炎的常用药。但也会导致心绞痛。血栓素A2通过血栓素A合酶由前列腺素H2产生,在水溶液中极
  • 马萨诸塞马萨诸塞州(英语:Commonwealth of Massachusetts),简称麻省、麻州,正式名称为马萨诸塞联邦,是位于美国东北部的州,为美国独立时最初的十三州之一,也是新英格兰六州里人口最密集的一
  • NaBiOsub3/sub__ Na+ __ O2− __ Bi5+铋酸钠(分子式: NaBiO3·2H2O ,分子量:NaBiO3·2H2O=316.00)是一种铋酸盐,浅黄色或褐色的无定形粉末,用作氧化剂 E
  • 鼓山区坐标:22°38′59″N 120°16′07″E / 22.6495866°N 120.2685799°E / 22.6495866; 120.2685799鼓山区(台湾话:.mw-parser-output .sans-serif{font-family:-apple-system,Bli
  • 谢少文谢少文(1903年9月15日-1995年7月20日),祖籍浙江绍兴,上海人,微生物学家、免疫学家。1921年毕业于苏州东吴大学,1926年取得长沙湘雅医学院医学博士学位。担任中国医学科学院基础医学
  • 切叶蚁属美洲切叶蚁属(学名:Atta),亦简称作切叶蚁属,隶属于蚁科家蚁亚科,分布于新世界,现时包括至少17个物种(另一说18种)。与其他蚁类相比,切叶蚁属物种的体型相对较大,呈锈红色或棕色,身体有尖
  • 七叶树俄亥俄州立大学七叶树队(英语:Ohio State Buckeyes)简称七叶树或巴克艾,是美国俄亥俄州立大学的校队,拥有19支不同项目的男子队伍以及20支不同项目的女子队伍。俄亥俄州立大学七
  • font color=#ffffff中西部高校基础能力建设工程/font公立大学中西部高校基础能力建设工程 是由中华人民共和国国家发展和改革委员会和中华人民共和国教育部组织实施重点扶持一批有特色有实力的中国大陆地区省部共建或省属重点