C4.5算法

✍ dations ◷ 2025-12-04 03:24:02 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 圣可以指:前者例子:圣人,圣旨,圣像;后者例子:茶圣,武圣
  • 艾尔弗雷德·福勒艾尔弗雷德·福勒,CBE FRS(英语:Alfred Fowler,1868年3月22日-1940年6月24日),出生于约克郡,英国天文学家。奖项以他的名字命名的事物
  • 市辖区市辖区(常通称为区或行政区)是指建制市辖域之下设置的行政区划单位。区为直辖市及市下辖的行政区划,层级与县以下的乡、镇、县辖市相同。与乡、镇、县辖市一样,皆以公所(即:区公所
  • 法属叙利亚托管地法属叙利亚托管地是国际联盟在第一次世界大战后,将原奥斯曼帝国的阿拉伯区域部分领土委托法国治理的地区。其范围约包括现今之叙利亚、黎巴嫩两国。第一次世界大战结束后,费萨
  • PDDPDD可以指:
  • OPPO Find 7OPPO Find 7是一款由OPPO公司研制的Android智能手机,为第一支采用了2K分辨率屏幕的智能手机。在中国,共有标准版(内部代号为X9077)、轻装版(内部代号为X9007)。在海外,共有两种
  • 倒车镜头倒车镜头,亦称后视镜头、倒车显影,是一种可在倒车时辅助显示车尾情况的特殊摄影机,可减少车尾视线盲区的出现,从而降低倒车时撞到人或其他对象的情况。倒车镜头一般会链接并显示
  • 倪蒋怀倪蒋怀(1894年8月12日-1943年4月21日),原名君怀,台湾台北瑞芳(今新北市瑞芳区)人。被认为是台湾第一位西画家,是水彩画家。绘画之余,兼营矿产事业,一生倾囊贡献于台湾美术之振兴及艺术
  • 摎(摎jiu,生卒年不详),《东周列国志》中记为嬴樛,中国战国时期末期秦国秦昭襄王的将军。前256年,讨韩,取阳城、负黍,获得首级4万。前254年,讨魏,取吴城。
  • 北卡罗莱纳州州旗北卡罗莱纳州州旗在1885年3月正式采用。改正1861年6月22日采用的版本。 亚拉巴马州 阿拉斯加州 亚利桑那州 阿肯色州 加利福尼亚州 科罗拉多州 康乃狄克州 特拉华州