C4.5算法

✍ dations ◷ 2025-11-18 06:23:53 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 贫化铀贫铀,也称为贫化铀或耗乏铀或衰变铀等等,英文简写为DU,是一种主要由铀-238构成的物质,为核燃料制程中的的副产物,故也是一种核废料。自然界中的铀,含有约99.27%的铀-238、0.72%的
  • 柴可夫斯基彼得·伊里奇·柴可夫斯基(俄语:Пётр Ильич Чайковский,1840年5月7日-1893年11月6日),俄罗斯浪漫乐派作曲家,其作品有民族乐派特征,但仍以浪漫风格为基准。其风
  • DNA超螺旋DNA超螺旋(英语:DNA supercoil)指双螺旋环状DNA扭转后再进一步地扭转,产生的结构类似电话线被扭转之后的样子。 所谓的超螺旋就是:原本已经是螺旋形态的结构进一步再次螺旋缠绕。
  • 巨河狸属巨河狸(学名:),是啮齿目的巨型种,长达2.5米及估计重60-100公斤,有些估计甚至达220公斤。它们生存于更新世的北美洲,在1万年前最后一次的冰河时期末灭绝。巨河狸的灭绝可能是因更新
  • 子宫镜检查子宫镜检查(hysteroscopy)也称为宫腔镜检查,是由内视镜通过子宫颈进入子宫,对子宫腔进行的检查。可以检查子宫内的组织情形,并且有需要时也可以进行手术治疗(内视镜手术)。子宫镜是
  • 夜樱家的大作战《夜樱家的大作战》(日语:夜桜さんちの大作戦)是日本漫画家権平ひつじ创作的少年漫画,从《周刊少年Jump》2019年39号开始连载。这是作者暨2017年推出的《波罗的留学记》后于该杂
  • 晓高·艾简达拿晓高·阿简达宁(Hugo Alcântara),1979年7月28日生于库亚巴,巴西职业足球运动员,现效力于巴西球会Grêmio Esportivo Osasco。
  • 莱昂诺尔 (奥兰治-拿骚的阿姆斯博格伯爵)国王陛下 王后陛下贝娅特丽克丝公主殿下 伊莲公主殿下 玛格丽特公主殿下 彼得·范·莫伦霍文教授艾琳公主殿下克里斯蒂娜公主殿下莱昂诺尔·玛丽·伊伦妮·恩利卡(Leonore Ma
  • 清凉澄观清凉澄观(737年-838年,一说738—839),俗姓夏侯,字大休,赐号清凉国师,唐朝越州山阴(今浙江省绍兴市)人,华严宗四祖。清凉澄观,生于唐玄宗开元二十五年(737年),十一岁时,从越州宝林寺霈禅师出
  • 大因镇大因镇,是中华人民共和国河北省保定市徐水区下辖的一个乡镇级行政单位。大因镇下辖以下地区:大因村、任庄村、小因村、防陵村、于迪城村、肖迪城村、崔迪城村、李迪城村、王村