C4.5算法

✍ dations ◷ 2025-11-23 01:49:28 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 刘忠范刘忠范(1962年10月-),吉林九台人,中国物理化学家,北京大学教授。
  • Β受体阻滞剂β受体阻断药(英语:Beta blockers),又称Beta受体阻断药、β受体阻断剂、β受体阻滞剂、β受体拮抗剂或β阻断药、乙型阻断剂,是一类用来治疗心律不齐、防止心脏病发作后的二次心
  • 腈纶腈纶(Acrylic fiber)是一种合成纤维,主要成分是分子量约为100,000的聚丙烯腈。腈纶的单体至少含有85%的丙烯腈,并且添加有其他单体共聚,常选用的共聚分子有乙酸乙烯酯和丙烯酸甲
  • 海禁海禁(又称洋禁),是一种锁国政策,旨在禁止民间私自出海,有谓“尺板不得出海”,也限制外国商人前往本国通商。具体实施随着时间变迁而有张有弛,即“严禁”及“弛禁”之分。海禁目的是
  • 迪克·切尼理查德·布鲁斯·“迪克”·切尼(英语:Richard Bruce "Dick" Cheney,1941年1月30日-)是小布什任内的美国副总统。切尼被广泛认为是美国历史上最有实权的副总统。切尼于1941年1月3
  • 莱奥波尔多·卡尔沃-索特洛莱奥波尔多·卡尔沃-索特洛·布斯特洛(西班牙语:Leopoldo Calvo Sotelo y Bustelo,1926年4月14日-2008年5月3日),在1981年至1982年担任西班牙首相。
  • 大公大公爵是欧洲爵位的一种,来源可追溯至古罗马时期,对为罗马帝国效力,而非罗马血统的外族如日耳曼族军队的首领的称谓。在后来被引申为非王族血统,却拥有实权,对王国举足轻重的人。
  • D环D环(D-loop),或称置换环(displacement loop)在分子生物学中是指一个双链DNA的两条单链互相分离,并被另外一条(第三条)核酸链隔开的结构。第三条核酸链与与之配对的核酸链具有互补的
  • 佩特里·福塞尔佩特里·福塞尔(芬兰语:Petteri Forsell;1990年10月16日-)是一位芬兰足球运动员。在场上的位置是攻击型中场。他现在效力于芬兰足球超级联赛球队玛丽港。他也代表芬兰国家足球队
  • 瓦尔泰尔·弗雷尔-奥尔邦于贝尔·约瑟夫·瓦尔泰尔·弗雷尔-奥尔邦(Hubert Joseph Walthère Frère-Orban,1812年4月22日-1896年1月2日),比利时政治家,自由党改革派首领,两次出任首相(1868—1870,1878—1884