C4.5算法

✍ dations ◷ 2025-10-08 21:11:21 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 商业秘密商业秘密(Trade secret,亦作营业秘密,俗称商业机密)是指包括设计、程序、产品配方、制作方法、制作手工艺、管理诀窍、客户名单或产销策略等的技术信息和营业信息:且该信息不为普
  • 十三酸在化学中,十三酸(Tridecylic acid)是一种有机化合物,是一个拥有13个碳原子的长链饱和脂肪酸,其分子式为CH3(CH2)11COOH。在乳制品中十分常见。不饱和脂肪酸
  • 天敌 (消歧义)天敌可以指
  • 吴梅吴梅(1884年-1939年3月17日),字瞿安,号霜厓,别署癯安、逋飞和厓叟,中国近代教育家及作家,更以其戏曲理论而出名。他是最早把昆曲带入中国大学成为正式科目者。“棫朴乐英才,试语同侪,
  • 高雅文化高雅文化, 亦称高级文化,是对于美学价值的体现,是指一般社会大众所认知的“艺术”,更常见是用来指称上流社会或知识阶层的文化 ,用来与民俗文化做区别, 从社会学的角度来看,高雅文
  • 380毫米SK C/34型舰炮36.5 km(22.7 mi)38 cm SK C/34 是纳粹德国于1930年代中至末期研发的舰炮.它是俾斯麦级战列舰的主炮。它曾计划装备O级战列巡洋舰和沙恩霍斯特级战列舰,但最后也未能成事。
  • 海因里希·克里斯蒂安·舒马赫海因里希·克里斯蒂安·舒马赫(丹麦语:Heinrich Christian Schumacher;1780年9月3日-1850年12月28日),是一位德裔丹麦籍天文学家。1780年出生在荷尔斯泰因公国的巴特布拉姆施泰特,
  • 李雅莹李雅莹(韩语:이아영,英语:Lee A-Young,1992年月 日-),韩国女艺人、KBO联赛起亚虎啦啦队员。
  • 光明章光明章(阿拉伯语:سورة النور‎),是古兰经第24章,属于麦地那篇章。主要故事发自本章第35节,涉及真主的光明和特权。真主说于本章第35节:阿拉伯语:الله نور السم
  • 微生物席微生物席是一种主要由细菌和古细菌组成的微生物组成的多层席状群落。微生物席生长在不同类物质的交界面上 ,大部分在水下或潮湿的表面上,但少数也能在沙漠中生存。 它们的生长