C4.5算法

✍ dations ◷ 2025-11-24 04:02:15 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 摩擦癖摩擦癖,又称挤恋、挨擦癖(frottage,frotteurism),指在拥挤的场所故意摩擦他人,甚至用性器官碰撞他人的身体,并可伴有自慰等性刺激来达到性兴奋的人。摩擦癖者通常在人多拥挤的公共
  • 群马大学群马大学群马大学(ぐんまだいがく、Gunma University)1949年设立的群马县的国立大学法人。校区分为:前桥市荒牧地区(教育学部和社会信息学部所在地)、前桥市昭和地区(医学部所在地
  • 功(英语:work),也叫机械功,是物理学中表示力对位移的累积的物理量,指从一种物理系统到另一种物理系统的能量转变,尤其是指通过使物体朝向力的方向移动的力的作用下能量的转移。与机
  • 东罗马帝国皇帝本表列出东罗马帝国的皇帝。东罗马帝国的开始时间难于确定。罗马皇帝戴克里先为了便于管理,在284年将罗马帝国分为东西两部。不过,拜占庭本身由始至终将自己视为罗马帝国的合
  • 蒙得维的亚蒙得维的亚(Montevideo)是乌拉圭首都兼蒙得维的亚省首府,位于拉普拉塔河下游,濒临南大西洋,面积为530平方公里,人口131万(2011年人口普查),相当全国人口的三分之一。它是乌拉圭全国政
  • 汉光武帝汉光武帝刘秀(前5年1月15日-57年3月29日),字文叔,南阳郡蔡阳县人(今湖北省襄阳枣阳市),东汉第一位皇帝,25年8月5日-57年3月29日在位。庙号世祖,谥号光武皇帝。 刘秀为汉高帝九世孙,汉景
  • 清唇齿近音清唇齿近音是一种辅音,被使用于一些口语中,国际音标写作⟨ʋ̥⟩或⟨f̞⟩,X-SAMPA音标则记作P_0、v\_0或f_o。清唇齿近音是南非英语中/f/典型的同位异音。相似地,/v/也常常被当
  • Sender IDSender ID是曾经加入发件人策略框架(SPF)和Caller ID的前MARID(英语:MARID) IETF工作组的一项反欺骗(英语:E-mail spoofing)协议。 Sender ID主要定义在实验性RFC 4406,而其余部分在R
  • 卡斯佩尔·海迈莱宁卡斯佩尔·海迈莱宁(芬兰语:Kasper Hämäläinen;1986年8月8日-)是一位芬兰足球运动员。在场上的位置是攻击型中场。他现在效力于捷甲球队积布尼克。他也代表芬兰国家足球队参加
  • 商暠商暠,明朝初期政治人物、明朝吏部尚书。原为元朝平章政事,后归附明朝。担任广西行省参政。洪武三年九月,担任吏部尚书。同年十二月,改任侍御史。洪武六年六月,改任御史中丞。后改