C4.5算法

✍ dations ◷ 2024-12-22 21:18:20 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 圣奥古斯丁县圣奥古斯丁县(San Augustine County, Texas)是美国德克萨斯州的一个县。面积1,534平方公里。根据美国2000年人口普查,共有人口8,946人。县治圣奥古斯丁(San Augustine)。成立于18
  • 和平县和平县位于中国广东省东北部,处在东江上游,属于河源市管辖。东边与广东省龙川县相邻,南边与广东省东源县相邻,西边与广东省连平县相邻,北边与江西省龙南县、定南县相连。和平县总
  • 舒曼计划舒曼计划(又称舒曼宣言)是1950年5月9日法国外交部部长罗贝尔·舒曼在法国外交部驻地奥赛码头时钟沙龙(Salon de l'Horloge)在一次记者招待会上公布的一个计划。在这个计划中他建
  • 朝鲜体育电视台朝鲜体育电视台(韩语:체육 텔레비죤)是朝鲜的一家电视台,也是朝鲜第五家电视台,2015年8月15日(朝鲜半岛光复70周年纪念日)开播,只在星期六和星期天播出节目。尽管此前朝鲜中央电视台
  • 克来麦斯国家森林克来麦斯国家森林(英语:Klamath National Forest)是美国的一处国家森林,1905年建立,位处俄勒冈州、加利福尼亚州,占地面积1,737,774英亩(7,032.52平方千米),最近的城市为加利福尼亚州
  • 2018年亚洲运动会射箭比赛-男子团体复合弓2018年亚洲运动会射箭比赛-男子团体复合弓项目于8月22日至8月28日于朋卡诺体育场射箭场举行 。淘汰赛于8月26日举办。
  • 嘉士伯海岭嘉士伯海岭(Carlsberg Ridge)是位于印度洋西南的海床的一种发散的构造板块边界。它是印度洋中洋脊的北面一部分,处于非洲板块和印度-澳洲板块之间。嘉士伯海岭在南印度洋罗德里
  • 路德维希·格林路德维希·格林(Ludwig Emil Grimm,1790年3月14日-1863年4月4日)是德国画家和铜版雕刻师,他是格林兄弟即雅各布·格林和威廉·格林的弟弟。
  • 阮述阮述(越南语:Nguyễn Thuật/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","Ming
  • 紫藤属详见内文紫藤属(学名:),豆科蝶形花亚科下的一属。紫藤属下有数十种,皆属攀缘植物,原产于东亚与北美洲。本属许多种类是受欢迎的园艺植物,部分物种引进北美洲后成为当地的入侵物种。