C4.5算法

✍ dations ◷ 2025-07-11 17:44:07 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 拉瓦节安托万-洛朗·德·拉瓦锡(法语:Antoine-Laurent de Lavoisier,1743年8月26日-1794年5月8日),法国贵族,著名化学家、生物学家,被后世尊称为“近代化学之父”。他使化学从定性转为定量
  • 张东辉张东辉(1967年1月-),浙江舟山人,中国物理化学家,中国科学院大连化学物理研究所研究员。2017年当选为中国科学院院士。1989年毕业于复旦大学物理系,1994年在纽约大学获得博士学位。
  • 先秦文学先秦文学泛指上古时代至公元前221年秦朝统—天下之前的文学作品,主要包括神话、韵文如《诗经》及楚辞、以及春秋战国时代的散文。而一般被公认为最古老先秦文学的,是尚书。先
  • 反比在数学中,比例是两个非零数量 y {\displaystyle y} 与 x {\displaystyle x} 之间的
  • 圣公会圣人历坎特伯雷大主教 (贾斯汀·韦尔比) 普世圣公宗主教长会议 兰柏会议 普世圣公宗咨议会 主教/教区 主教制基督教 · 基督教教会 (耶稣 · 基督 · 圣保罗) 圣公宗(历史) 圣公宗
  • 台湾世界遗产潜力点台湾世界遗产潜力点是指由行政院文化部评选出的具备登录世界遗产条件的世界遗产潜力点,它们分别处于台湾本岛、金门、马祖与澎湖之上。在2002年第一期评估有12处,到2009年新增
  • 田方田方(1911年1月3日-1974年8月27日),原名田兆栋,籍贯天津,出生于河北保定,中国电影表演艺术家。2005年被中国电影表演艺术学会评为中国电影百年百位优秀演员。妻子为演员于蓝,小儿子
  • 贵州话贵州话,即贵州省内使用的汉语方言。由于除了少部分湘语或带有南方方言混合成分的方言岛以外,贵州全境的汉语方言都为西南官话,所以贵州话一般指贵州省境内的西南官话,因为贵州的
  • 截半大十二面体在几何学中,截半大十二面体是一种星形均匀多面体,由12个正五边形和12个正五角星组成,可以视为大十二面体或小星形十二面体截去所有顶点所产生的形状。其对偶多面体为内侧菱形三
  • 香椎浩平香椎浩平(1881年1月25日-1954年12月3日)为日本大正至昭和时期之陆军军人,福冈县出身。最终官阶陆军中将,陆军中将香椎秀一之弟,属于皇道派。1900年(明治33年)11月日本陆军士官学校(12