C4.5算法

✍ dations ◷ 2025-11-28 16:12:19 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 威廉·蒂莫西·高尔斯威廉·蒂莫西·高尔斯爵士,KBE,FRS(英语:Sir William Timothy Gowers,1963年11月20日-),英国数学家、作家,1998年菲尔兹奖得主。高尔斯早年受教于英格兰剑桥郡的国王学院(英语:King's C
  • radspan style=letter-spacing:0.1em/spanssup−1/sup每秒弧度(符号:㎮,rad·s−1或rad/s)是国际单位制中角速度的计量单位,表示单位时间转过的角,定义为每秒转动的弧度。一弧度每秒等于:
  • ABCD包围网ABCD包围网,指在第二次世界大战期间,东亚各国对日本进行经济封锁而给予的称号。ABCD包围网取自四个国家的头一个英文字母,包括美国(America)、英国(Britain)、中国(China)与荷兰(Dutch
  • 玄菟玄菟郡(谚文:현도군)是汉四郡之一,其疆域屡屡因为战争及行政重组而有所改变。于汉武帝元封三年(前108年)设立时疆域最广阔,亦是四郡里最重要的一个, 大约是今北朝鲜咸镜南道、咸镜北
  • 总督府农业试验所昆虫部台湾总督府农业试验所,简称农试所,为台湾日治时期1939年成立的中央研究机构,位于台北市大安区蟾蜍山北侧山脚下。前身是1921年成立的台湾总督府中央研究所农业部,统合各农事、糖
  • 德意志联邦共和国基本法《德意志联邦共和国基本法》(德语:,缩写:GG;Basic Law for the Federal Republic of Germany),是德意志联邦共和国原定过渡时期相当于宪法地位的法律,在东、西德统一后成为德国的正
  • 玛利·弗朗索瓦·萨迪·卡诺玛利·弗朗索瓦·萨迪·卡诺(Marie François Sadi Carnot,1837年8月11日-1894年6月25日),法国工程师出身的政治家,法国大革命时期著名的“胜利的组织者”拉扎尔·卡诺之孙,左派议
  • 张遇祥张遇祥(?-1861年),字瑞麟,直隶新乐县(今河北省新乐市)人,清朝将领。张遇祥年仅十五,即能开两石弓。道光十五年(1835年),成武进士,授三等乾清门侍卫。道光二十一年(1841年),选浙江衢州城守营都
  • 兹德内克·莫拉维克兹德内克·莫拉维克(捷克语:Zdeněk Moravec,1968年-),捷克天文学家,以发现大量小行星闻名。莫拉维克毕业于布拉格查理大学,在1992到2000年间任职于克列特天文台。1994到1998年他发
  • 维尔纳·克罗利科夫斯基维尔纳·克罗利科夫斯基(德语:Werner Krolikowski,1928年3月12日-),德国统一社会党政治局委员,中央委员会书记,东德部长会议第一副主席。1928年,生于奥勒斯的工人家庭。1945年,当工人