C4.5算法

✍ dations ◷ 2025-12-04 12:04:33 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 基因工程基因工程(英语:genetic engineering,又称为遗传工程、转基因、基因修饰)是一种使用生物技术直接操纵有机体基因组、用于改变细胞的遗传物质的技术。包括了同一物种和跨物种的基
  • 阿马尔那阿玛纳(英语:Amarna)埃及古都。即泰尔埃尔阿马那,位于今之明亚省。古埃及第十八王朝阿肯那顿法老统治时期在此建都并由底比斯迁都于此,得名意为“阿顿神德泽所被之地”。该地位于
  • 核四龙门核能发电站是位于台湾新北市贡寮区的核能发电站,因所在地名“龙门”而得名,由台湾电力公司兴建营运,为台湾第四座核能发电站,故原名第四核能发电站,2009年3月3日改为现名,其原
  • 癸未癸未为干支之一,顺序为第20个。前一位是壬午,后一位是甲申。论阴阳五行,天干之癸属阴之水,地支之未属阴之土,是土克水相克。中国传统纪年农历的干支纪年中一个循环的第20年称“癸
  • 无聊龙无聊龙属(属名︰Borogovia)是兽脚亚目恐龙的一属,是灵活的肉食性伤齿龙科恐龙,生存于上白垩纪的蒙古。在1971年,一个波兰与蒙古的联合挖掘团队,在南戈壁省的耐梅盖吐盆地发现一个小
  • 中原昌也中原昌也(なかはらまさや、1970年6月4日-)は、日本音乐家、电影评论家、小说家。1970年6月4日东京青山出生,1988年开始热爱音乐,曾是暴力温泉艺者(Violent Onsen Geisha)一员,后来组
  • 洛基·柯拉维托的诅咒洛基‧柯拉维托的诅咒是一个美国职棒大联盟的现象:自从克里夫蘭印地安人隊在1960年以右外野手洛基·柯拉维托和底特律老虎交换哈维·库恩(Harvey Kuenn)之后,这个大联盟球队就
  • Cocos2dCocos2d(科科斯二维)是一个开源的2D游戏框架。最初的Cocos2D框架是使用Python编写的,基于pyglet开发。目前Cocos2D框架已经被移植到了多种语言和平台上。Cocos2d for iPhone,
  • 碧岩镇碧岩镇,是中华人民共和国甘肃省定西市陇西县下辖的一个乡镇级行政单位。碧岩镇下辖以下地区:龙川村、王庄村、万山村、科羊村、万沟村、碧岩村、珠帘村、郑坪村、庞坪村、黄哩
  • 巴西松巴西松(学名:)为南洋杉科植物,又名巴西南洋杉、南美南洋杉、巴拉那松,尽管名为“松”,其实并不是松树。巴西松原产于巴西南部,尤其是是巴拉那州,生长于海拔500-1800米的低山地区,总覆