C4.5算法

✍ dations ◷ 2025-11-28 08:02:46 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 后法兰西王国法兰西王国(法语:Royaume de France或法语:Royaume des Français)是一个短暂的君主立宪王国,自1791年9月3日法王路易十六签署1791年宪法至1792年9月21日废除君主制为止。理论上,
  • 荷兰语联盟荷兰语联盟(荷兰语: Nederlandse Taalunie 帮助·信息,缩写为NTU)是讨论关于荷兰语事项的国际机构,由荷兰与比利时在1980年9月9日于布鲁塞尔签定的条约而建立,继承于一个两国在二
  • 身体接触身体亲密(Physical intimacy)也称为肢体亲密,是指接近(英语:Proxemics)或是碰触其他人的举动。身体亲密是表达对他人感情或是感觉(像是友谊、浪漫或是性吸引力)的行为。身体亲密的例
  • 2003年10月2003年10月的新闻事件:请参看:
  • 鳌江鳌江源于中国浙江省温州文成县桂山乡桂库村。《江南靖士诗稿·桂库村》诗:“新造砼途接古村,民居半旧见藤垣。涧流纵出廊桥下,高落鳌江是首源。”源流所生地南雁荡山吴地山南麓
  • 世界童军运动组织世界童军运动组织(英语:World Organization of the Scout Movement, WOSM,/wʊzm/)为全球最大的国际童军活动组织,总共有168个会员。这些会员为经认证的国家童军组织,共辖有4,000
  • 海绵蛋糕海绵蛋糕(英语:Sponge cake)为一种常见的蛋糕。鸡蛋加糖与香草精用电动搅拌器中高速度搅拌打至乳白色,粘稠状。再按情况加入不同味道(如柠檬味须加柠檬皮与柠檬汁),最后再加入面粉,
  • 坎达里坎达里(Kandari),是印度马哈拉施特拉邦Jalgaon县的一个城镇。总人口15158(2001年)。该地2001年总人口15158人,其中男性8005人,女性7153人;0—6岁人口1678人,其中男897人,女781人;识字率
  • 马鲁兰布坐标:20°03′S 48°07′E / 20.050°S 48.117°E / -20.050; 48.117马鲁兰布(马达加斯加语:Marolambo),是马达加斯加的城镇,位于该国东部,由阿齐那那那区负责管辖,是马鲁兰布区的首
  • 里默湖里默湖(德语:Riemer See),是德国的人工湖泊,位于该国东南部,由巴伐利亚负责管辖,长0.7公里、宽0.2公里,面积0.08平方公里,海拔高度530米,平均水深14米,最大水深18米。