C4.5算法

✍ dations ◷ 2025-11-20 21:43:35 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 贫血症贫血(英语:anemia, anaemia,拉丁语:anæmia)通常定义为血液中红血球或血红素总数量下降的情形;也可以被定义为血液携带氧气能力下降的情况。当贫血慢性发作时,其症状往往不明显,可能
  • 刘国轩刘国轩(1629年-1693年),字观光,福建汀州长汀人,另一说为武平人,为郑氏王朝重要的军事领袖,活跃于对抗清朝的战争。刘国轩善于利用间谍,掌握敌军的详细动向,因此经常战胜,才有“刘怪子”
  • 霍华德德怀特·大卫·霍华德(英语:Dwight David Howard,1985年12月8日-),出生于佐治亚州亚特兰大,外号“魔兽”,目前效力于NBA洛杉矶湖人。德怀特·霍华德生于美国佐治亚州亚特兰大。其父
  • 迈克尔·唐利迈克尔·布鲁斯·唐利(英语:Michael Bruce Donley,1952年10月4日-)是第22任美国空军部长。他有着30年的工作经验,曾在美国参议院、白宫及美国国防部工作。他曾担任国防部长室行政
  • 宁波晚报宁波晚报是中国浙江省宁波市出版的一种都市类报纸,创刊于1995年1月1日,现为宁波日报报业集团所属,以“心系寻常百姓,可读可用可亲”为办报宗旨。发布方式包含报纸、网站、iPad、
  • 埃利亚斯·芒努斯·弗里斯埃利亚斯·芒努斯·弗里斯(瑞典语:Elias Magnus Fries,1794年8月15日-1878年2月8日),瑞典生物学家。他在六十多年的科研生涯中,搜集了欧洲各地大量的真菌标本,对其进行了科学、系统
  • 人体解剖学方位人体解剖学方位是解剖学中用来描述人体器官的相对位置、以及运动方向的标准术语,以两手放在身体两侧且掌心面向前方的标准解剖姿势(英语:Standard anatomical position)为准。在
  • 土佐藩土佐藩(日语:土佐藩/とさはん  */?)是日本废藩置县实施之前于土佐国(位于四国岛南部的太平洋侧的高知县)一带的统称,属于外样大名的属藩,正式称呼是高知藩(こうちはん),藩厅(类似该地
  • 1985年8月逝世人物列表1985年8月逝世人物列表,是用于汇总1985年8月期间逝世人物的列表。
  • 海地法语海地法语(法语:français haïtien .mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Genti