C4.5算法

✍ dations ◷ 2025-12-09 08:11:03 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 霰弹枪定序法霰弹枪定序法(Shotgun sequencing,又称鸟枪法)是一种广泛使用的为长DNA测序的方法,比传统的定序法快速,但精确度较差。曾经使用于塞雷拉基因组(Celera Genomics)公司所主持的人类基
  • 邹广田邹广田(1938年7月18日-),生于吉林长春,籍贯吉林怀德,中国物理学家。1962年毕业于吉林大学物理系,1965年该校研究生毕业。2001年当选为中国科学院院士。 吉林大学教授,超硬材料国家重
  • 芝加哥通勤铁路芝加哥城市铁路,又称Metra,是伊利诺伊地区交通局(英语:Regional Transportation Authority (Illinois))(RTA)所属通勤铁路网,担负大芝加哥都会圈地区的通勤铁路客运业务。Metra共有1
  • 美国的语言美国最广泛的语言是英语,但美国联邦政府并没有设有官方语言。历史上存在过很多语言。其他有美国本土的语言,也有来自欧洲、亚洲等地区的语言。目前美国所使用的语言约有430种,
  • 逻辑函数逻辑函数(英语:logistic function)或逻辑曲线(英语:logistic curve)是一种常见的S函数,它是皮埃尔·弗朗索瓦·韦吕勒(英语:Pierre François Verhulst)在1844或1845年在研究它与人口
  • 清硬颚边近音清硬颚边近音( voiceless palatal lateral approximant)是辅音的一种,用于一些语言口语中。 国际音标中的符号是⟨ʎ̥⟩(清化的⟨ʎ⟩),X-SAMPA符号则为〈 L_0〉。在中国四川省
  • 阿散井恋次)是日本漫画《BLEACH》中的主要角色之一,是护廷十三队六番队副队长。护廷十三队六番队副队长。发色鲜红,通常用发带束起成冲天状(漫画版彩色扉页里,偶尔会将长发编成发辫)。眉上方
  • 成膜粒成膜粒存在于高等液泡植物细胞,主要功用为帮助有丝分裂。有别于动物细胞,植物细胞通常有大体积的液泡,以致细胞核被推至细胞的边缘。为了有丝分裂,细胞核必须挪至细胞中央。这发
  • 2018年冬季奥林匹克运动会入场旗手以下为2018年冬季奥林匹克运动会各代表团入场时的旗手列表。本届奥运会共有92个代表团参加,开幕式入场次序除希腊代表团以奥林匹克发源地首先入场,韩国代表团作为东道主最后一
  • E3电子娱乐展E3电子娱乐展(英语:Electronic Entertainment Expo,又译作“E3游戏展”,常缩写“E3”),是全球电子游戏产业最大的年度商业化展览,也是第一大的游戏大会,由娱乐软件协会(ESA)主办。展览