C4.5算法

✍ dations ◷ 2025-12-09 14:47:53 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 五苓散五苓散,一方出自《伤寒论》,是祛湿剂中利水渗湿的方剂。有利水渗湿、温阳化气、外散表邪的功效。可用来主治:伤寒太阳蓄水证以及水湿内停之水肿。见有症状:小便不利,头痛微热,烦
  • 降血脂药物降血脂药(英语:Hypolipidemic agents),又称调血脂药或antihyperlipidemic agents、lipid-lowering drugs,是一类用来治疗高脂血症的药物。常用的降血脂药有两大类,分别为他汀类药
  • 楚加奇楚加奇国家森林(英语:Chugach National Forest)是美国的一处国家森林,1907年7月23日建立,位处阿拉斯加州,占地面积6,908,540英亩(27,957.9平方千米),是美国境内第二大国家森林,最近的
  • 孟加拉人民共和国国旗孟加拉国国旗于1972年1月27日正式采用,纵横比3:5。此旗以1971年孟加拉解放战争中使用的旗帜为原形,原旗帜为红色太阳照耀下的孟加拉国版图。为了飘扬的时候的视觉效果,红色圆形
  • 青山湖区青山湖区是中国江西省南昌市的一个市辖区。总面积为220平方公里,2003年人口为67.2万。2001年南昌市郊区正式更名青山湖区。青山湖区早在新石器晚期(约5000年)就有原始居民定居
  • 潘钟祥潘钟祥(1906年8月12日-1983年10月25日),字瑞生,生于河南汲县,病逝于北京。中国石油地质学家,中国石油地质学开创者之一。1931年毕业于北京大学地质学系,1941年在美国石油地质学家协
  • 奥克-罗曼语支奥克-罗曼语支 (加泰罗尼亚语:llengües occitanoromàniques,奥克语:lengas occitanoromanicas),又称东伊比利亚语支,是位于罗曼语族下西罗曼语支的一个分支,一般指奥克语和加泰罗
  • 蔡道宪清道光二十六年《蔡忠烈公遗集》之蔡道宪像蔡道宪(1615年-1643年),字元白,号江门,福建晋江县(今晋江市)人,明末政治人物,同进士出身。崇祯十年(1637年)丁丑科进士。任长沙府推官。崇祯十
  • 温玉霞温玉霞(台湾话:Un Gio̍k-hâ,英语:WEN,YU-HSIA,1955年8月5日-),中国国民党籍政治人物,生于台湾嘉义县,现任立法委员,曾任侨务咨询委员、总统府国策顾问。世界台湾商会联合总会首位女性
  • 超级中国《超级中国》(朝鲜语:슈퍼차이나,英语:Super China)是韩国KBS于2015年推出的纪录片,分别从人口、经济、外交军事、土地、文化、政治六个方面介绍了中国大陆的发展现状,并分析了中国