C4.5算法

✍ dations ◷ 2025-10-24 21:22:44 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 心房颤动心房颤动(英语:Atrial fibrillation,简称:Af 或 A-fib),又称为心房微颤、房颤、心房纤维性颤动、心房纤颤、房性纤颤等,是心脏不正常节律/心律不整的一种,特色是心脏快速而不规则的
  • 马头墙马头墙,又称马头山墙,是中国传统建筑中封火墙的一种造型,为徽派建筑重要标志之一。因其墙顶部分形似马头而得名。依据马头墙顶的马头形状可分为鹊尾式、印斗式、坐吻式、金印式
  • 性幻想性幻想,或称意淫,是人通过大脑想象某种动作或画面等来使自己性兴奋的方式,通常透过成人漫画、色情片及色情小说、情色文学等媒介。性幻想亦包括主观臆想的性行为或性接触。性幻
  • 摩擦摩擦力(英语:friction)指两个表面接触的物体相对滑动时抵制它们的相对移动的力,是经典力学的一个名词。广义地,物体在液体和气体中运动时也受到摩擦力。摩擦力产生的情形:摩擦力来
  • 规模不经济规模不经济(Diseconomies of scale)随着企业生产规模扩大,而边际效益却渐渐下降,甚至跌破零、成为负值。造成此现象的原因,可能是内部结构因规模扩大而更趋复杂,这种复杂性会消耗
  • 社会民主主义政党列表本列表条列世界上自认为支持社会民主主义原则及价值的政党。其中有些属于社会党国际成员。有时候自称为社会民主主义政党的各种表现,在批评者眼中并不一定符合社会民主主义。
  • 欧盟委员会编号欧盟编号(EC Number)是一套在欧盟通用的化学品编号,由形如NNN-NNN-R的七位数字组成。欧盟编号列表由三部分演化而来:随着欧洲化学品管理局的运作,新的欧盟编号已经开始发放。关于
  • 辣芥末酱辣芥末酱,也称辣芥末、辣芥酱或辣芥是一种芥末酱,在中国、韩国·朝鲜、日本食用。它在英语中被称为“Asian/Chinese/Oriental hot mustard”。在《礼记》、《仪礼》等中国古代
  • 戈雷加奥恩戈雷加奥恩(Goregaon),是印度马哈拉施特拉邦赖加德县的一个城镇。总人口6868(2001年)。该地2001年总人口6868人,其中男性3415人,女性3453人;0—6岁人口799人,其中男412人,女387人;识字
  • 礁环冠水母礁环冠水母(学名:)是钵水母纲冠水母目领状水母科环冠水母属之下的一个深海水母物种。本物种分布于全世界各地的海洋里;但《中国动物志》认为本物种只出现于在印度洋-西太平洋海