C4.5算法

✍ dations ◷ 2025-11-20 13:15:09 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 罗培南美罗培南(英语:Meropenem),或译美洛培南,是一种有非常广泛抗菌性及可供注射的抗生素,用于治疗多种不同的感染,包括脑膜炎及肺炎。它是一种β内酰胺类抗生素,属于碳青霉烯的分类下。
  • 尼氏征尼氏征(Nikolsky's sign)又称棘层松解征,是某些皮肤病发生棘层松解时的触诊表现,可有四种阳性表现,是皮肤科常见触诊项目之一。
  • 隐生代隐生代是一个非正式地用来指地球和月球地质演化的最早一个时期,后来被划分为冥古宙、太古宙、元古宙,一般定义为地球诞生之时,约45亿6717万年前至大量生物诞生的的5亿4100万年
  • 社会自由主义社会自由主义(英语:social liberalism),又称新自由主义、新政自由主义(英语:New Deal liberalism)、现代自由主义(英语:modern liberalism)、左翼自由主义(德语:Linksliberalismus)或福利
  • 美国网络司令部美国网络司令部(英语:United States Cyber Command USCYBERCOM)是美国军方机构,负责开展网络军事行动及保护军方电脑系统,属于美国国防部的一体化作战司令部。2009年6月23日,由美
  • 海地华人海地华人,是指移民到海地的华人或祖先是华人的海地人。人口大约230人。华人最早是在1890年代来到海地,主要在海地政府和公司工作。另一批华人是在1970年代从台湾来到,并在首都
  • 哈大高速动车组列车哈大高速动车组列车是中华人民共和国中国铁路高速的一条列车运营路线,往来黑龙江省哈尔滨市哈尔滨西站至辽宁省大连市大连北站,在哈大客运专线开通初期,因受到气候因素限制,列车
  • 尚食局尚食局是古代中国及朝鲜负责供应皇家伙食的机构,大明的尚食局的首席女官为尚食,下有司膳(之下有典膳、掌膳)、司酝(之下有典酝、掌酝)、司药(之下有典药、掌药)、司饎(之下有典饎、掌
  • 第一滴血5:最后的血《第一滴血5:最后的血》(英语:,又称作)是一部2019年上映的美国动作惊悚片。本片为2008年电影《兰博4》的续集,“第一滴血系列电影(英语:Rambo (franchise))”的第五部作品。电影由阿
  • 临界马赫数飞机飞行时,当随飞行速度增大,上翼面压力最低点的速度等于此点上的音速时的飞机飞行马赫数称为临界马赫数。或者说,当飞行与某马赫数时,机翼表面(通常是上表面)上流速最大点流速达