C4.5算法

✍ dations ◷ 2025-12-03 14:54:41 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 清晰点清晰点(英语:clearing point)是液晶态物质转变为液态时的温度,即液晶态可存在的最高温度。该过程中液晶与液态共存,若持续加热,则液晶态会持续转变为液态,则失去液晶的光学性质从光
  • 佐川一政佐川一政(1949年4月26日-),出生于日本神户市。曾于法国巴黎杀害女性同学并将其食用,后因精神错乱而不被起诉,之后移送至巴黎精神病院。不久,他父亲将他引渡回日本医院治疗,后来医院
  • 汉景帝汉景帝刘启(前188年-前141年3月9日),为西汉第六位皇帝(前157年7月14日—前141年3月9日在位),在位16年,享年48岁,其正式谥号为“孝景皇帝”,后世省略“孝”字称“汉景帝”,景帝后元三年
  • 锯齿锯齿国家森林(英语:Sawtooth National Forest)是一座美国国家森林,占地面积2,110,408英亩(8,540.52平方千米),其中有约96%位于爱达荷州,4%位于犹他州。森林由美国农业部下属的美国国
  • 变形甲藻目变形甲藻目(Dinamoebidiales) 为藻类植物之一植物目。该植物于植物分类表上,归于甲藻门 (Pyrrophyta)横裂甲藻纲(Dinophyceae),同纲者尚有多甲藻目(Peridi-niales)等等。
  • 张松涛张松涛(1985年6月17日-),中国男子篮球运动员,司职中锋。他曾代表中国参加2006年世界篮球锦标赛,最终获得第9名。
  • 陈国陈,出 土金文资料作敶,是中国历史上西周至春秋时代的一个妫姓诸侯国,是帝舜后裔,为三恪和春秋十二诸侯之一。建国君主为担任周文王的陶正一职(也就是掌管制作陶器的官),的遏父(又
  • 居氏盔鱼居氏盔鱼,为辐鳍鱼纲鲈形目隆头鱼亚目隆头鱼科的其中一种,分布于印度洋区,从红海、东非至斯里兰卡、安达曼海海域,栖息深度4-46米,体长可达38公分,栖息在沙石混合的珊瑚礁海域,属肉
  • 䱵亚目䱵亚目(学名:Cirrhitoidei),又名鳕鲈亚目,为辐鳍鱼纲日鲈目的一个亚目。传统上为鲈形目鲈亚目的䱵总科(Cirrhitoidea,又名鳕鲈总科),但2017年《硬骨鱼系统分类》将本科归类于日鲈目,独
  • 衍射分光镜衍射分光镜为一光学仪器,能将一个光束分成多个光束,并排成阵列(1xN)或矩阵(MxN),而这些光束皆具有入射光的特性。一个衍射分光镜是专为特定波长的光和产生特定衍射角的光束而设计,所