C4.5算法

✍ dations ◷ 2025-12-09 20:47:04 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 链型植物轮藻门 有胚植物链型植物(英语:Streptophytina)是植物中的一大类群,包括轮藻门(广义上的轮藻)和有胚植物(现存的陆生植物:苔藓维管植物)两大类。
  • 胎生胎生(英语:Viviparity;拉丁语:Viviparious,词根来自vivus生命)可用来形容一些动物与植物的繁衍方式,但两者的定义并不直接相关。包括人类在内的哺乳动物一般为胎生。以动物来说,胎生
  • 4f14 5d7 6s22, 8, 18, 32, 15, 2蒸气压第一:880 kJ·mol−1 第二:1600 kJ·mol主条目:铱的同位素铱是原子序77号的元素,其元素符号为Ir,是一种十分刚脆,银白色的铂系过渡金属
  • 斯瓦尔巴坐标:78°13′N 15°33′E / 78.217°N 15.550°E / 78.217; 15.550– 欧洲(绿色及深灰色)– 挪威(绿色)斯瓦尔巴(挪威语:Svalbard)是位于北极地区的群岛,亦是挪威最北界的国土范围
  • 华人华人界诺贝尔奖得主列表,列举了不同意义上的华人,海外华人,在中国出生者或持有/曾经持有中华民国/中华人民共和国国籍的诺贝尔奖得主列表。诺贝尔奖,是一年一度的国际性奖励,其中的
  • 磷虾磷虾是一种类似虾的海洋无脊椎动物,生物学上属于磷虾目(Euphausiacea)。磷虾这种小型的甲壳亚门浮游动物是须鲸、蝠鲼、鲸鲨、锯齿海豹及海豹的食物,也是一些海鸟的主要食物。是
  • 越南.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","Ming-Lt-HKSCS-ExtB","FZKaiT-
  • 边检边境管制是国家或地区,进行管制或监察边境流量的措施。依世界各国通例,国际机场或港口之检查,系采C、I、Q制度:海关(Customs),负责货物进出口的管制及旅客行李及国际邮包的检查;移民
  • 皮米皮米(符号 pm,英式英文:picometre、美式英文:picometer)是长度单位,1皮米相当于1米的一兆(即一万亿)分之一,即10-12米。有时在原子物理学中称为微微米(micromicron)。 米(m) · 尧米(Ym)
  • 杰克逊·马丁内斯杰克逊·阿利·马丁内斯·巴伦西亚(西班牙语:Jackson Arley Martínez Valencia,1986年10月3日-),是一名哥伦比亚职业足球运动员,司职前锋,现时被中国足球超级联赛俱乐部广州恒大淘