C4.5算法

✍ dations ◷ 2025-11-27 19:03:56 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 口渴口渴是口里很干,想要喝水的情况,或者广义来说,是渴求液体的情况。这种情况是动物的基本本能,而这也是一个重要的机制,以使动物的体液浓度平衡。导致口渴的原因可能是因为缺乏体液
  • 亲吻亲吻是指用嘴唇触碰其他事物,通常是另一个人。特别的,接吻是指两人的嘴唇互相接触。亲吻是一种经过学习的行为,从其他动物之间的行为学习而来。许多灵长类动物也有亲吻的行为。
  • 多维元素片复合维生素(Multivitamin)是一种膳食补充剂,含有维生素及矿物质等微量营养素。通常所见的复合维生素有片剂、胶囊剂、锭剂、粉状、液状及注射剂等形式。除注射剂在医师指导下方
  • 军用飞机空难列表军用飞机空难列表本文是按照事故发生年份来对军用飞机事故进行分类。遇难飞行员遗体相距不到20米,但迄今尚未发现飞机残骸,因此搜索工作将会继续进行。
  • 触媒催化剂又称触媒,是能透过提供另一活化能较低的反应途径而加快化学反应速率,而本身的质量、组成和化学性质在参加化学反应前后保持不变的物质。例如二氧化锰可以作为过氧化氢(双
  • 开元路开元路为元朝辽阳行省下属的行政机构,管辖中国东北和朝鲜半岛东北部地区。至元四年(1267年),改开元万户府为辽东路,治所在黄龙府(今吉林省农安县)。二十三年(1286年)改为开元路。大德
  • 帕哈罗斯岩岛帕哈罗斯岩岛(farallon de paharos,查莫罗语: Farallon de Pajaros) ,是马里亚纳群岛北端的岛屿。帕哈罗斯岩岛在西班牙语中直译是“鸟岩”的意思。该岛也称为“帕哈罗斯岛”或
  • 圣库斯玛与达米安教堂坐标:51°54′20.3″N 10°25′40.5″E / 51.905639°N 10.427917°E / 51.905639; 10.427917圣库斯玛与达米安教堂(德语:)是位于德国城市戈斯拉尔的一座路德宗的教堂。教堂的历
  • 板块内地震板块内地震(英语:Intraplate Earthquakes),又称为板内地震,指的是发生在地壳中板块内部的地震。与板块内地震相对的概念是板际地震,板际地震是发生在板块边界上的地震。相较于板际
  • 压舱水压舱水(英语:Ballast water),是现代船舰(货轮、油轮等)为了维持空载运时船舰重心的稳定度,不至于轻易翻覆,而汲取海水、河水或湖水等到船舱内,以增加船舰的重量。当船舰汲取压舱水的