C4.5算法

✍ dations ◷ 2025-11-26 13:15:04 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 心脏搭桥冠状动脉旁路移植(英语:Coronary artery bypass graft,常缩写为CABG)或心脏绕道手术,俗称冠脉搭桥或搭桥,即冠状动脉旁路移植术,是一项缓解心绞痛和减少冠心病死亡风险的手术。搭桥
  • 置换排列(英语:Permutation)是将相异对象或符号根据确定的顺序重排。每个顺序都称作一个排列。例如,从一到六的数字有720种排列,对应于由这些数字组成的所有不重复亦不阙漏的序列,例如
  • 巨林猪大林猪(学名:Hylochoerus meinertzhageni),是偶蹄目猪科大林猪属中唯一的一种,分布于西非和中部非洲地区。其种加词“meinertzhageni”得名于英国军官及动物学家理查德·梅纳茨哈
  • TV2TV2是马来西亚广播电视(RTM)的一个免费电视频道。TV2于1969年11月17日开播,2006年4月3日起24小时播出。频道以马来语、华语、英语和淡米尔语播出,节目内容包括新闻、儿童节目、
  • 米克特兰特库特利米克特兰特库特利(Mictlantecutli,意为“冥王”。)是阿兹特克人的冥界之神,祂掌管米克特兰(阿兹特克的冥界)的第九层,也就是最底层。祂的女性面相,或说妻子,是米克特卡西瓦特尔(Mictec
  • 亚磺酰卤亚磺酰卤(英语:sulfinyl halide)是由亚砜官能团分别与烃基和卤素原子通过单键相连产生的一类有机化合物,通式为R-S(O)-X(R为烃基,X为卤素原子)。亚磺酰卤是合成如亚磺酸酯(sulfinic
  • 1998年英联邦运动会第十六届英联邦运动会(英语:XIV Commonwealth Games、马来语:Sukan Komanwel ke-16)是一项在马来西亚吉隆坡举办的综合运动会。此届英联邦运动会也是第一次在英联邦成员国中的发
  • 答剌罕答剌罕,在唐朝官书中称达干(古代突厥语:����),意思是自由自在的人。最早是中亚印欧民族吐火罗人统治者的头衔,在南北朝时代为柔然人所用。后各草原民族皆用之。可萨人统治者头衔亦是答
  • 1998年美国大使馆爆炸案1998年美国大使馆爆炸案是指1998年8月7日,美国驻东非坦桑尼亚首都达累斯萨拉姆的大使馆(英语:Embassy of the United States, Dar es Salaam)和肯尼亚首都内罗毕的大使馆(英语:Emb
  • 生命冲力生命冲力()是由法国哲学家亨利·伯格森于 1907 年在其哲学著作《创造进化论》中提出。该词在英语中一般被译作 ,但批评者一般称其为 生命力(vital force)。这是对于生物进化和发