C4.5算法

✍ dations ◷ 2025-09-17 15:33:35 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 人类疱疹病毒第四型人类疱疹病毒第四型(拉丁语:Epstein-Barr virus,缩写EBV、爱泼斯坦-巴尔病毒、 human herpesvirus 4 (HHV-4)),又称为EB病毒,是最常见能引起人类疾病的病毒之一。EBV是在公元1964
  • 豪兰岛豪兰岛(英语:Howland Island,/ˈhaʊlənd/)是一个无人居住的珊瑚礁,位于赤道之上(准确位置:北纬0°48′,西经176°38′)的中太平洋区域,大约距离美国夏威夷檀香山市3,100公里(1,675海
  • 碳氧化物碳氧化物是指只由碳与氧组成的化合物。最简单常见的碳氧化物包括一氧化碳(CO)和二氧化碳(CO2)。除了这两种为人熟知的无机物,碳与氧其实还能构成许多稳定或不稳定的碳氧化物,但在
  • 电力消耗电力资料来源:IEA 2016人口资料来源:World By Map 2016人均用电量: 电力消耗量(TW·h/年) x 1000000000 / 人口(因含工业用电,且不含移住劳工等人口,人均用电量并不能表示节约
  • 小麦草小麦草 / 猫草 (Wheatgrass / Catgrass)是鹅观草属 (Agropyron),特别是鸡冠鹅观草 (Agropyron cristatum,小麦的同类)的幼芽。其嫩叶可以榨汁或晒干磨粉。未经加工的植株含大量纤维
  • 幻萌网络幻萌网络,全称上海幻萌网络科技有限公司,是中国大陆的一家以网络游戏为主的公司,该公司因为开发《战舰少女》而知名。2015年7月份,游戏研发商幻萌网络催促发行商派趣科技交付运
  • 后三国君主 · 首都 · 文学史 · 教育史 电影史 · 韩医史 陶瓷史 · 戏剧史 韩国国宝 · 朝鲜国宝后三国(892年-936年)是朝鲜历史上的时代划分之一,《高丽史》开篇即定后三国
  • 高价画作诈骗术高价画作诈骗术(日文:絵画商法) 是一种灰色地带的诈骗手法,但有认为只是一种商品推销术,各国各有争议,但在日本被定为违法。日本泡沫经济时期这种絵画商法开始大量出现,瞄准一般
  • 反羽蟹科见内文Ptenoplacidae Alcock, 1899反羽蟹科(学名:Retroplumidae)是幽灵蟹总科(Retroplumoidea)下唯一的单系科。反羽蟹科下有8个属,但只有Bathypluma及反羽蟹属两个属有发现现存物
  • 实验天体物理联合研究所实验天体物理联合研究所(英文:Joint Institute of Laboratory Astrophysics,简称JILA)是一个美国前沿物理学研究为方向的研究所。实验天体物理联合研究所位于科罗拉多大学校园内