C4.5算法

✍ dations ◷ 2025-11-30 19:20:31 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 引子引物(英文:primer),又译引子,是一小段单链DNA或RNA,作为DNA复制的起始点,存在于自然中生物的DNA复制(RNA引物)和聚合酶链式反应(PCR)中人工合成的引物(通常为DNA引物)。之所以需要引物是
  • 诱导性提问诱导性提问(suggestive question)或称暗示性问题,是指用不恰当的提问方式限缩、操控回答者的回答。诱导性提问往往会使答案不能确实反映回答者内心的真实想法。在问卷应用上,诱
  • 废水处理技术列表以下为废水处理技术列表:
  • 开普勒61b开普勒61b(Kepler-61b)是一颗于2013年发现的太阳系外行星,母恒星是开普勒61。该行星是以侦测行星通过母恒星前方使母恒星光度下降的凌日法发现。开普勒61b的半径稍大于2倍地球
  • 立方飞米体积(英语:Volume)是物件占有多少空间的量。体积的国际单位制是立方米。一件固体物件的体积是一个数值用以形容该物件在空间所占有的空间。一维空间物件(如线)及二维空间物件(如正
  • 京剧猫京劇貓第一季上篇第一季下篇第一季上篇第一季下篇《京剧猫》(英语:Jing-Ju Cats、Beijing Opera Cats),是由中国大陆北京市璀璨星空文化发展有限公司根据绘本《京剧猫长坂坡》
  • 格雷格·塞门扎格雷格·莱昂纳德·塞门扎(英语:Gregg Leonard Semenza,1956年7月1日-),美国医学家,知名于对生命系统如何利用、调节氧气的研究。他的团队发现HIF-1(缺氧诱导因子-1)所调控的基因能够
  • 安迪·鲁尼安迪·鲁尼(英语:Andrew Aitken "Andy" Rooney,中文:安德鲁·艾坚·"安迪"·鲁尼,1919年1月14日-2011年11月4日)是一名美国资深传媒工作者,曾为电台及电视撰稿,亦是知名的幽默大师和
  • 切斯特菲尔德切斯特菲尔德(英语:Chesterfield),是一个美国小镇,位于印第安纳州。根据2010年的人口普查,当地人口为2,547人。切斯特菲尔德是位于40°6′44″N 85°35′47″W / 40.11222°N 85.5
  • 竹东断层竹东断层是北台湾的一条断层,根据经济部中央地质调查所2010年的资料,将竹东断层列为存疑性活动断层,该断层位于竹东丘陵的东缘,东北西南走向,长约18km,于西南十四寮北侧被斗焕坪断