C4.5算法

✍ dations ◷ 2025-11-19 06:32:06 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 玉蜀黍玉米(学名:Zea mays)是一年生禾本科草本植物,是全世界总产量最高的重要粮食作物。同时也可以当作饲料使用,还有在生物科技产业作为乙醇燃料的原材料。而且玉米更在各个化工领域被
  • 闪燃可燃物表面挥发出的可燃气体与空气混合后遇火发生一闪即灭的现象,叫做闪燃。闪燃现象一般发生在一个起了火的密闭空间,是一个小火发展成大火的必经过程。因为现场积聚大量可燃
  • 全州国际电影节全州国际电影节(韩语:전주국제영화제,英语:Jeonju International Film Festival)是韩国的一个电影节,经费主要由是韩国政府赞助,在每年的4月左右于韩国全罗北道全州市举行。第一届
  • 尖峰时刻尖峰时刻可以指:
  • 羚牛羚牛(学名:Budorcas taxicolor)是一种分布在喜马拉雅山东麓密林地区的大型牛科动物,共有四个亚种。为中国国家一级重点保护野生动物。在藏语中,羚牛被称作(藏语:.mw-parser-output
  • 最高建筑及结构物列表最高建筑及结构物列表包括人类历史上已完成、兴建中、兴建时停工但仍未完成以及已摧毁的建筑物与非建筑结构物。位于阿拉伯联合酋长国迪拜境内的哈里发塔高度为829.84米,为当
  • 佩蒂·拉贝尔派翠西亚·路易丝·霍尔特–爱德华滋(英语:Patricia Louise Holt-Edwards,1944年5月24日-),艺名佩蒂·拉贝尔(英语:Patti LaBelle),美国歌手、词曲作家、演员、企业家。佩蒂于1960年代
  • 赤祖父俊一赤祖父 俊一(日语:赤祖父俊一/あかそふ しゅんいち ,1930年12月4日-),出生于日本长野县佐久市,美国地球物理学家,阿拉斯加费尔班克大学的 国际北极研究中心的创建人,并且从1998年成立
  • 第9师第9师,可以指下列的师级单位:
  • 文化功劳者文化功劳者,意译为“文化有功人士”,是在日本对于文化的发展提升有显著功绩的人,根据文化功劳者年金法(昭和26年法律第125号)所制定。其人数比文化勋章获得者更多,是仅次于文化勋