C4.5算法

✍ dations ◷ 2025-02-24 01:34:36 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 主族元素主族元素,又称典型元素,是指周期表中s区及p区的元素。周期表中除了过渡元素和内过渡元素(镧系元素及锕系元素)之外的都是主族元素。主族元素包括:
  • 夹肌夹肌包括:后面:腰方肌 · 腰大肌/腰小肌 · 胯肌会阴浅隙(会阴浅横肌、球海绵体肌、坐骨海绵体肌)
  • 糕点糕点是糖果糕点的一种,指以面粉或米粉、糖、盐、油脂、蛋、乳品等为主要原料,配以各种辅料、馅料和调味料,初制成型,再经蒸、烤、炸、炒等方式加工制成。糕点品种多样,月饼、蛋糕
  • 中国北部中国北方与中国南方是指中国内部的两大块地理区域,常以淮河或长江为界,将中国分为南部和北部。进入20世纪后,中国地理学中,通常以秦岭-淮河线为自然地理分界线。北方的地域范围
  • 护理学院北京大学护理学院,是北京大学医学部的一个下属学院,始建于1984年,是中国恢复高等护理教育后首批建立的高等护理教育院系之一,现任院长为尚少梅。1999年7月,以北京医科大学护理系
  • 工程经济工程经济(Engineering Economics)是经济学的一个分支学门,是在决定投资方案中择一时,用以决定的经济方法。通常包含以下主题:
  • 米歇尔·马约尔米歇尔·居斯塔夫·爱德华·马约尔(法语:Michel Gustave Édouard Mayor,1942年1月12日-),瑞士天文学家,任教于日内瓦大学天文学系,已于2007年退休,但仍以荣誉退休教授身份持续进行研
  • 1913年国家人口列表这是按照1913年人口排列的国家列表,只排名主权国家。
  • 2003年美洲金杯2003年美洲金杯(2003 CONCACAF Gold Cup)是中北美洲及加勒比海足球协会举办的第七届美洲金杯。赛事于2003年7月11日至7月27日在美国 2 座及墨西哥 1 座城市举行。本届赛事总共
  • 租购租购是一种信贷购物的形式,买方可以用分期付款的方式先取得货品,待付清货款后便可正式拥有货品。有些货品比较昂贵,例如家具、汽车等,卖方通常容许买方以租购方式购买。现在一般