C4.5算法

✍ dations ◷ 2025-11-24 16:11:38 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 味觉系统味觉系统是指感受味觉的感受器。对于哺乳类动物,其味觉系统是由口腔内的舌头以及连接舌头及大脑之间的神经系统组成。味觉系统的作用,主要是作为一个防卫机制,减少进食有问题的
  • 英国宇航署name = 'Aero', description = '航空太空科技(航空航天科技)', content = {{ type = 'text', text = [=[本页面没有类似于NoteTA的数量限制。 请自行修改分类名。在NoteTA样板
  • 后工业时代后工业社会是社会科学名词,指涉开始自1960年代的工业社会转型出现的社会现象,该词最早出自法国社会学家阿兰·图赖讷,后由美国社会学家丹尼尔·贝尔的著作《后工业社会的来临》
  • 推断遗传学中的推断是指对为观察到的基因型进行统计推断。这通过人群中的单倍型来完成,比如国际人类基因组单体型图计划和千人基因组计划,这从而允许通过未检测变异与已检测变异的
  • 蓄意轰炸格尔尼卡格尔尼卡大轰炸,指西班牙内战期间,弗朗西斯科·佛朗哥国民军对西班牙巴斯克地区格尔尼卡进行的空中轰炸。在佛朗哥命令下,纳粹德国空军秃鹰军团和意大利王国空军军团(意大利语:Av
  • 马来民族统一机构Pertubuhan Kebangsaan Melayu United Malays National马来民族统一机构(马来语:Pertubuhan Kebangsaan Melayu Bersatu;英语:United Malays National Organization),又译巫来由
  • 沅江市沅江市,地处沅水得名。位于中国湖南省北部,洞庭湖畔,隶属于地级益阳市。早在5000多年前,现境内漉湖等地已形成原始村落,到青铜器时代,莲子塘一带聚居村落已相当密集。春秋战国时期
  • 里查达斯·贝兰基斯 里查达斯·贝兰基斯(立陶宛语:Ričardas Berankis,1990年6月21日-),是立陶宛职业网球运动员。截至目前最高的ATP单打排名为50,也是立陶宛的男网选手中世界排名最高者。
  • 宫原武熊宫原武熊(日语:みやはら · たけくま,英语:Miyahara Takekuma,1874年(明治7年)12月13日- ?),日本鹿儿岛县人,前后就读于日本爱知医学校、东京帝国大学医科、慕尼黑大学、柏林大学、奥
  • 廖韫玉廖韫玉是中国的一名牙科医师。出生在四川资中,1937年从华西协和大学医学博士毕业,曾在雷允飞机制造厂职工医院任职,1960年赴武汉创办湖北医学院口腔系。