C4.5算法

✍ dations ◷ 2025-11-08 00:49:52 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 汉诺威王国汉诺威王国(德语:Königreich Hannover),是1814年10月因维也纳会议而建立的王国,由乔治三世恢复他在拿破仑时代失去的汉诺威领地。它继承不伦瑞克-吕讷堡选侯国(非正式称为汉诺威
  • 泽兰省泽兰省(荷兰语:Zeeland),又依英语译作西兰省,是荷兰的一个省份。该省位于该国的西南部,主要由岛屿组成,与其邻近的省份北有南荷兰省,东连北布拉班特省,西面靠海,南与比利时接壤。其省
  • 淡水镇淡水区,旧称沪尾 (闽南语:Hóo-bué/Hōo-bé),位于中华民国新北市西北沿海以及淡水河的出海口北侧,北邻三芝区,南邻台北市北投区,西滨台湾海峡,西南与八里区间以淡水河为界。而在
  • 马克·奥利芬特马库斯·劳伦斯·艾尔文·奥利芬特AC KBE FRS FAA FTSE(英语:Sir Marcus Laurence Elwin "Mark" Oliphant,1901年10月8日-2000年7月14日),也称马克·奥利芬特是澳大利亚的物理学家
  • 颜元颜元(1635年-1704年),字易直,又字浑然,号习斋,直隶博野(河北安国县东北)人,明末清初思想家、教育家,颜李学派(“李”指颜元的学生李塨)的创始者。颜元的父亲颜昶曾被蠡县一位小官吏朱九祚
  • 彭亨彭亨州(马来语:Pahang),全称Pahang Darul Makmur(意为“彭亨-繁荣的家邦; Darul:家邦,Makmur:繁荣),是西马来西亚最大的州属,州首府为关丹(Kuantan),皇城位于北根(Pekan)。马来西亚半岛最高
  • 平将赖平将赖(?-940年),日本平安时代中期武将。他是平良将之子,平将门之弟,又称“御厨三郎”。尊卑分脉说他是平良将四子。平将门席卷关东僭称新皇时曾私授将赖下野国守。天庆3年(940
  • 宝拉·阿巴杜宝拉·阿巴杜(Paula Julie Abdul,1962年6月19日-) 是一名美国创作歌手、编舞、舞者、演员和电视通告艺人。宝拉·阿巴杜在1988年发行首张专辑后,旋即成为全美家喻户晓的大明星,声
  • 蓼蓝蓼蓝(学名:),亦略称为蓝或靛青,为蓼科一年生的草本植物。主要用作蓝染(日语:藍染め)及药用。蓼蓝植株高约50公分到80公分,叶互生,卵形或椭圆形,叶下表面沿叶脉常有毛茸分布;鞘状托叶 (oc
  • 清算(法律程序)清算(法律程序)(英语:Liquidation)是一种法律程序,公司的生产运作停止,所有资产(包括生财工具的机械、工厂、办公室、物业以及所持有的专利、债权和有价证券等),在短期内出售,变回现金,