C4.5算法

✍ dations ◷ 2025-12-10 09:16:56 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 路易·德博纳尔德波纳德 (法语:Louis Gabriel Ambroise de Bonald,1754年10月2日-1840年11月23日),法国的反革命哲学家和政治家。在那革命的时代中,他和好友迈斯特(Joseph de Maistre)同为传统主义者,
  • 附属消化腺消化系统(英语:digestive system)是多细胞生物用以进食、消化食物、获取能量和营养、排遗剩余废物的一组器官,其主要功能为摄食、消化、吸收、同化和排遗。其中有关排遗的部分,也
  • 姻亲姻亲指基于婚姻关系而生之亲属型态,一方配偶与他方配偶之亲属间,因双方缔结婚姻后,成为相互具法律上亲属关系的情况。《中华民国民法》第969条规定,包括配偶的血亲、血亲的配偶
  • H1结构 / ECOD组蛋白H1(英语:Histone H1)是组成真核细胞染色质的五种主要的组蛋白家族中的一种。尽管这种组蛋白是高度保守的,但在各物种间其序列变异性仍是所有组蛋白中最大的。M
  • 根压根压(英语:Root pressure)指的是植物通过消耗能量,通过主动吸收离子,水分随浓度差往上沿木质部运动的生理过程。根压是植物体除蒸散作用外第二个为水分逆重力流动提供动力的过程
  • 安德烈·马塞纳安德烈·马塞纳,里沃利公爵,埃斯林亲王(André Masséna, Duc de Rivoli, Prince d'Essling,1758年5月6日-1817年4月4日),是法国革命战争和拿破仑战争中重要的法军指挥官,是1804年拿
  • 不可能主义不可能主义(英语:Impossibilism)是一种社会主义理论。该理论从马克思主义视角出发,强调在资本主义经济体制下,政治、经济、社会改良的作用极其有限,改良的结果与目的往往相反,因为
  • 安扎克级巡防舰安扎克级巡防舰,或者纽澳军团级巡防舰(英语:-class frigate)是以德国MEKO 200型为基础设计修改,由澳大利亚Tenix防卫系统公司建造的巡防舰。采用模组化设计,舰上设备由新西兰和澳
  • 皮娜·鲍什皮娜·鲍什(德语:Pina Bausch,1940年7月27日-2009年6月30日),全名Philippine "Pina" Bausch,出生于德国索林根,现代舞编舞者。她在舞蹈风格中著名的德国舞蹈剧场(德语:Tanztheater)发展
  • 亨利·赛门斯亨利·卡尔维特·赛门斯(英语:Henry Calvert Simons,1899年10月9日-1946年6月19日)美国芝加哥大学的经济学家。他的反垄断和货币主义主张对于芝加哥经济学派影响巨大。亨利·赛门