C4.5算法

✍ dations ◷ 2025-11-27 05:33:52 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • Nasub2/subHe氦化钠是一种钠的稀有气体化合物,化学式为Na2He,其结构可表示为(Na+)2He(2e−),于2016年由中国化学家制得。氦化钠由钠与氦在高温与极高压(>113GPa)下合成。Na2He在接近1,500K的
  • 借译借译是在翻译外来语的过程中,按照来源语言的形态结构和构词原理直译过来。相对于音译和直译。在特定名词上的翻译经常用到这个方法,如摇滚乐团Green day,意译为年轻岁月,借译为
  • 世界观世界观意思是“着眼世界之上”。这是德国知识论中所使用的词汇,指的是一个“广泛世界的观念”。世界观指涉的是一种人类知觉的基础架构,透过它,个体可以理解这个世界并且与它互
  • 征服王朝征服王朝(英语:Dynasties of Conquest)是西方汉学家德裔美国人魏复古所提出的历史学名词,出自他所提出的“征服王朝学说”,首次出现于他与冯家昇合著的《中国社会史:辽》。征服王
  • 邵学敏邵学敏(1958年8月-),中国杂技家协会分党组书记、秘书长、副主席,中国文学艺术界联合会原主席团委员。
  • XYY-三体XYY三体是一种人类男性的性染色体疾病,正常的男性性染色体是XY,而XYY三体者多出一条Y染色体,所以又称“超雄综合症”(super-male syndrome)。此病在各种性染色体疾病中比较常见,在
  • 2001年NBA总决赛2001年NBA总决赛是国家篮球协会在2000–01赛季的最后一个系列赛。由西部冠军洛杉矶湖人击败东部冠军费城七六人,夺得该年度的总冠军。湖人队以4胜1败的战绩夺冠。湖人中锋沙
  • 江成德江成德(Epiphane Carlassare, O.F.M. 1844年6月25日-1909年7月24日),意大利籍方济各会会士,中国湖北东境代牧区主教(1884年-1923年)。1844年6月25日,江成德出生在意大利的蒙泰基奥(Mo
  • 曹谨凤山曹公庙的曹公神像曹谨(1787年11月5日-1849年6月8日),原名瑾,字怀璞,后改为谨,字怀朴,号定庵,清朝政治人物,河南省河北道怀庆府河内县(今河南省焦作市沁阳市)人。历任直隶、福建、台
  • 八角莲八角莲(学名:),又名独脚莲、八角盘、鬼臼、山荷叶、八角金盘、六角莲、一碗水,为小蘗科八角莲属的植物。八角莲为多年生草本,其茎单出直立,约高有30公分,还具有匍匐的地下茎。其盾状