C4.5算法

✍ dations ◷ 2025-11-22 13:47:08 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 袋食蚁兽袋食蚁兽(学名:Myrmecobius fasciatus)是生存于西澳洲的食虫性有袋动物,近年再引入至南澳大利亚州。袋食蚁兽曾经遍布整个澳洲南方,但现在仅在少数地区存活,属于濒危物种。袋食蚁
  • 住宅区住宅,又称住所、房屋、家宅,是人所建筑以供居住的建筑物。一般有墙壁和屋顶,内部则区隔出房间,但也可不隔间。大部分住宅能抵挡各种天气变化,以至进侵的人或动物。住在同一住宅的
  • 加拿大人加拿大人(英语:Canadians;法语:Canadiens)是指把自我认同跟加拿大联系在一起的人。这种联系可能是在居住地上、法律上、历史上、或者文化上。对大多数加拿大人来说,几种或全部这样
  • 哈奴曼哈奴曼(梵语:हनुमान्;Hanuman),或译哈努曼、哈鲁曼,印度史诗《罗摩衍那》中的神猴,拥有四张脸和八只手,与罗刹恶魔罗波那大战,解救阿逾陀国王子罗摩之妻悉多。罗摩是大神毗湿
  • 保安语保安语 (国际音标:) 是中国保安族的语言,亦为土族所用,属于阿尔泰语系蒙古语族东蒙古语支,使用地区包括甘肃省临夏回族自治州的积石山保安族东乡族撒拉族自治县和青海省海东地区
  • Only TeardropsOnly Teardrops是丹麦歌手埃默莉·德·佛瑞斯特的一首歌曲,由利瑟·卡布勒、Julia Fabrin Jakobsen和Thomas Stengaard填词。此曲为丹麦在瑞典马尔默举行的2013年欧洲歌唱大
  • 塔拉瓦塔拉瓦,是基里巴斯的一组环礁,英国殖民时期和吉尔伯特和埃利斯群岛的首都,当中南塔拉瓦是基里巴斯的首都。塔拉瓦环礁是以第二次世界大战的塔拉瓦战役而闻名。塔拉瓦环礁由24个
  • 罗尔·布劳韦斯罗尔·布劳韦斯(荷兰语:Roel Brouwers)是荷兰的一位足球选手。在场上司职后卫。
  • 香叶烯月桂烯,或称为β-月桂烯,是一种天然的烯类有机化合物。它被归类到烃类的萜烯中。常温下呈无色或淡黄色油状液体。可以溶于乙醇、乙醚、氯仿等有机溶剂当中,并能与大多数其它香
  • 分流 (水文学)分流在水文学上指从主干河流中分出一条或多条河道的情况。与之相反的情况称为支流。很多时候河道有大量沉积物时,河道上的河水往往会分开流动。如在河流汇入海洋或湖泊附近的