C4.5算法

✍ dations ◷ 2025-12-10 16:35:09 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 排挤拒绝社交,也就是一般所谓的排挤,是指故意将个体拒于社交关系和社会互动之外的行为。社交拒绝涵盖人际关系上的拒绝、同侪拒绝、排挤、告白被拒绝、家庭隔阂(英语:familial estra
  • 阿尔比恩阿尔比恩或阿尔比昂(英语:Albion,古希腊语:Ἀλβίων)是大不列颠岛的古称,也是该岛已知最古老的名称。今天,阿尔比恩仍然作为该岛的一个雅称使用。凯尔特语族中一些语言关于苏格
  • 龙岗万科广场龙岗万科广场是一个位于深圳龙岗区的商场。商场是写字楼“万科大厦”及住宅“万科天誉”的基座,楼高六层(地库一层至L5),另设地库停车场。华润创业旗下blt超市、Zara旗下七大品
  • 爱许兰大学爱许兰大学(英语:Ashland University,或译爱西兰大学、雅诗兰大学、阿什兰大学),主校区位于美国俄亥俄州爱许兰市,是爱许兰市唯一的一所大学。拥有50几栋现代化的建筑物。该校提供
  • 争取和平与自由联盟争取和平与自由联盟(英语:Alliance for Peace and Freedom,缩写为APF)是一个极右翼的欧洲政党,由欧洲各国数个极右翼政党组成。
  • 艾萨克·巴罗艾萨克·巴罗(Isaac Barrow,1630年10月-1677年5月4日),英国伦敦人,知名数学家。1643年进入剑桥大学三一学院,1648年获学士学位,1649年当选为三一学院院委,1662年任伦敦格雷沙姆几何教
  • 洪瑞珍洪瑞珍(1950年12月20日-2008年8月3日),台湾音乐工作者、作曲家,嘉义县新港乡人,2008年在台北市辞世。青少年时学习钢琴,后入读中国文化大学音乐学系,主修声乐,副修钢琴。1983年起,在文
  • 克劳斯·埃布讷克劳斯·埃布讷(德语:Klaus Ebner,1964年8月8日-)是一位奥地利作家,散文家,诗人和翻译家。出生并成长于维也纳,他在幼年时期就开始写作。20世纪80年代他开始写故事并投稿给杂志,在198
  • 蔡阿信蔡阿信(1899年-1990年3月5日),生于台湾台北艋舺,是台湾近代第一位受到完整现代医学训练的女医师。蔡阿信出生于台湾日治时期1899年。生父在她五岁时过世,母亲拟将她送给一位牧师当
  • 1913年世界大赛1913年的世界大赛是由代表美联的费城运动家与代表国联的纽约巨人对垒。运动家队以4胜1败打败巨人。巨人成为继1906到1908年的小熊后,第二支连三年夺得国联冠军的球队,但也成为