C4.5算法

✍ dations ◷ 2025-12-07 05:51:17 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 陈大光陈大光(越南语:Trần Đại Quang,1956年10月12日-2018年9月21日),曾是越南共产党主要领导人之一,第十届至十二届中央委员,第十一届、十二届中央政治局委员,党内地位在时任总书记阮富
  • 声阻抗声波阻抗又称为声阻抗或音阻。声波传导实为“介质偏离平衡态的小扰动”的传播,声波阻抗即为将介质位移所需克服的阻力。定义为“声压 / 介质流过一面积的速度”,亦可表示为“
  • 皇家客运皇家客运有限公司(英语:Royal Bus),简称皇家客运,是台湾北部的大客车公司,成立于1997年,初期主要业务范围涵盖国民旅游、各级学校校外教学、毕业旅行、各机关团体相关业务、机场接
  • 采采蝇23舌蝇属(属名:Glossina,即采采蝇,来自英语:Tsetse /ˈsiːtsi/,美国 /ˈtsiːtsi/, 或 英国 /ˈtsɛtsi/)是双翅目舌蝇科(Glossinidae)下唯一的一个属,其下的蝇广泛分布于从撒哈拉沙漠
  • 大东亚会议大东亚会议是由日本在第二次世界大战期间召开的一次国际会议,一般认为该会议是一场用于宣传日本对亚洲政策——大东亚共荣圈的样板会议。大东亚会议于1943年11月5日到11月6日
  • 1975年春季攻势阮文绍黎笋 文进勇来源1: 1,110,000人(710,000名正规军、400,000名武装民兵部队) 1,559门火炮 2,044辆坦克和装甲车 1,556辆飞机和直升机 在4月26日: 在西贡外围:250,000人(152,0
  • 安德烈亚斯·林德安德烈亚斯·林德(瑞典语:Andreas Linde;1993年7月24日-)是一位瑞典足球运动员。在场上的位置是守门员。他现在效力于挪威足球超级联赛球队莫迪足球俱乐部。他也代表瑞典国家青年
  • 均匀码理事会UCC是Uniform Code Council的简称,译名为“均匀码理事会”,是一个具有世界影响的全球化和标准化的组织。该机构是隶属于欧洲商品编码(EAN)组织的非盈利单位,机构总部坐落于美国的
  • 徐道觉徐道觉(英文:Tao-Chiuh Hsu;1917年-2003年),著名美籍华人细胞生物学家。徐道觉曾担任美国细胞生物学会主席,是该学会首位华人主席。徐道觉并有“哺乳动物细胞遗传学之父”(“”)之称
  • 阮福绵宠阮福绵宠(越南语:Nguyễn Phúc Miên Sủng/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKS