C4.5算法

✍ dations ◷ 2025-12-01 05:31:25 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 抗坏血酸抗坏血酸(英语:ascorbic acid, C6H8O6)是一种天然存在的具有抗氧化性质的有机化合物。纯的抗坏血酸是白色固体,但有些杂质的样品会带点微黄色。抗坏血酸易溶于水,形成轻度酸性的
  • 卡米尔·圣桑夏尔·卡米尔·圣桑(法语:Charles Camille Saint-Saëns,1835年10月9日-1921年12月16日)法国作曲家,键盘乐器演奏家。他的作品对法国乐坛及后世带来深远的影响,重要的作品有《动物
  • 高同型半胱氨酸血症高同型半胱氨酸血症(Hyperhomocysteinaemia),是指血液中的同型半胱氨酸的水平异常增高的状况,它首先由McCully提出,是多种心血管疾病如冠状动脉硬化性心脏病,外周血管疾病,脑血管疾
  • 罗友伦罗友伦(1912年2月4日-1994年8月25日),中华民国陆军二级上将, 广东省梅县瑶上乡人,为1950年政府迁台后首位陆军军官学校校长,后接任第四任海军陆战队司令、第五任宪兵司令、陆军第一
  • C-40波音C-40快船是波音737-700C的军用版本。 它在美国海军和美国空军广泛使用 ,现在并被美国海军陆战队订购。 海军C-40A型号名为“快船”,而美国空军C-40B / C则没有正式命名。
  • 加斯帕·诺加斯帕·诺(西班牙语:Gaspar Noé)是一位阿根廷裔电影导演,他主要在法国发展电影事业。加斯帕·诺的父亲是阿根廷画家、作家路易斯·飞利浦·诺埃(法语:Luis Felipe Noé);1976年,加
  • 1,1,1-三氟乙烷1,1,1-三氟乙烷(化学式:C2H3F3),简称三氟乙烷,别名R-143a,是一种无色透明的氟碳化合物气体。它的临界温度为72.71°C,临界压力为3.76Mpa。它可单独用作制冷剂,但通常情况下会与其他
  • 1AD1AD可以指:
  • 麦斯卡拉姆杜格麦斯卡拉姆杜格(约公元前27世纪后期在位)(英语:Meskalamdug)乌尔国王。其墓被莱昂纳多·伍利爵士发现并发掘。出土了一盏贝壳形状的金油灯和一盏精致的金头盔。
  • 天津新闻广播天津广播电视台新闻广播 (97.2 FM、909 AM),简称天津新闻广播,是天津广播电视台的一套广播频率,以播出新闻及谈话节目为主。该频率通过调频和中波双频播出,覆盖天津及其周边地区