C4.5算法

✍ dations ◷ 2025-12-02 01:38:41 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • Los Alamos National Laboratory洛斯阿拉莫斯国家实验室(英语:Los Alamos National Laboratory;前称“Y计划”、洛斯阿拉莫斯实验室、洛斯阿拉莫斯科学实验室),简称LANL,是美国承担核子武器设计工作的两个国家实
  • 嗅球类嗅球类(学名:Olfactores)是脊索动物门的其中一个演化支。嗅球类下属包含了两个亚门,分别是被囊动物亚门以及脊椎动物亚门。嗅球类动物占了绝大多数属于脊索动物门下的生物。长久
  • 最优等拉丁文学位荣誉是许多欧美国家大学的传统,用来奖励特别优秀的学士、硕士或博士,有时也作为学位评分的标准,最常用的荣誉有:在德国,拉丁文学位荣誉同时是博士学位的评分等级:与德国
  • 池州市池州市是中华人民共和国安徽省下辖的地级市,长江三角洲城市群成员之一。位于安徽省西南部,长江南岸,南与江西省接壤,面积8,399平方公里,总人口143.6万。唐朝武德四年(621年)始置池
  • 汉普郡学院汉普郡学院(Hampshire College)是一间位于美国马萨诸塞州阿默斯特的私立文理学院。它是五学院联盟成员。汉普郡学院的理念是1958年阿默斯特学院,曼荷莲学院、马萨诸塞大学阿默
  • 卡罗琳·贝尔托西卡罗琳·露丝·贝尔托西(英语:Carolyn Ruth Bertozzi;1966年10月10日-),美国化学家,美国国家科学院院士,美国国家发明家科学院(英语:National Academy of Inventors)院士,(美国国家科学
  • 樱泽如一樱泽如一(日语:桜沢如一,其名“如一”出生时读作にょいち,后改为训读ゆきかず,1893年10月18日-1966年4月23日),日本思想家、饮食文化研究家。他在西方世界以乔治·欧沙瓦(George Osaw
  • 2014年美国周末票房冠军2014年美国周末票房冠军如下:
  • 可逆加成断裂链转移可逆加成断裂链转移(英语:Reversible Addition-Fragmentation Chain Transfer,简称:RAFT)是活性/可控自由基聚合(CRP)的一种。另外还有iniferter,NMP,ATRP,IPT,SETRP等。在RAFT反应中
  • 刘令誉刘令誉(?-1657年),山西省平阳府洪洞县(今山西省洪洞县)人,明朝进士、明清政治人物。天启二年(1622年),登进士,后授山东道御史、河南巡按御史。崇祯十一年,以右佥都御史衔,任延绥巡抚、榆林