C4.5算法

✍ dations ◷ 2025-04-26 22:26:07 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 翼状胬肉手术翼状胬肉手术或翼状胬肉切除术是针对翼状胬肉做的手术。以单纯切除术为例:转头术为将翼状胬肉头部缝合在结膜下。干细胞移植术为将角巩膜缘处的正常结膜组织移植到空白带,使角
  • 联邦通信委员会联邦通信委员会(英语:Federal Communications Commission,FCC)是一个独立的美国联邦政府机构,由美国国会法令所授权创立,并由国会领导。联邦通信委员会是由1934年通信法案所创立,取
  • 拉丁裔西班牙裔(Hispanic)或西班牙语裔是美洲地区的一个特定语言族群,他们拥有来自于拉丁美洲或者伊比利亚半岛的血统。广义来说,西班牙裔包含所有在美洲居住并且自定义为西班牙裔或者
  • 克尔曼沙汗克尔曼沙汗省(波斯语:كرمانشاه)是伊朗三十个省份之一。面积24,6417公里,在所有省份中排行第15。人口约1,938,000(2005年数据);首府位于克尔曼沙赫市。克尔曼沙汗省位于
  • 九层塔罗勒(学名:Ocimum basilicum),是一类可用于烹调的香草,大多数是一年生植物,一些是多年生植物,包括非洲蓝罗勒(英语:African blue basil)和泰国罗勒(英语:Thai basil)(Ocimum basilicum var
  • 洪培翔洪培翔是台湾主持人。以主持东森新闻台 知性类节目、新闻性节目《台湾启示录》闻名。现任东森新闻台《台湾启示录》资深节目主持人兼任制作人。。
  • 马鲁古马鲁古省或摩鹿加省(印尼语:Provinsi Maluku;英语:Moluccas Province)是印度尼西亚东部的一个省,辖境包括马鲁古群岛的中部和南部。首府和主要城市是位于安汶岛上的安汶。2010年普
  • 台北市立图书馆台北市立图书馆(英语:Taipei Public Library,又名:Taipei Municipal Library),简称北市图,位于台北市,为台北市政府成立的公共图书馆,主管单位为台北市政府教育局。其总馆位于大安区
  • 自反空间自反空间是泛函分析中的概念。如果一个巴拿赫空间(或更一般地,一个局部凸拓扑向量空间)的连续对偶空间的连续对偶空间“是”其自身,就称这个空间为自反空间。其中的“是”表示两
  • 台湾飞碟学会台湾飞碟学会(英语:TUFOS,Taiwan UFOlogy Society)是一个台湾的社会团体,专门以科学方法研究不明飞行物体、先史文明、特异功能、生命科学、宇宙科学,还有可能与外星人相关的各种