C4.5算法

✍ dations ◷ 2025-06-10 14:36:39 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 勃起功能障碍勃起功能障碍(Erectile dysfunction,缩写:ED),为男性性功能障碍的一种,其特征在于阴茎在性行为期间无法勃起或维持勃起:538-39。勃起功能障碍可能会产生心理上的后果,因为它与关系
  • 食品辐照食品辐照(Food irradiation),亦称“食品照射”或“电离辐射灭菌”,指将食物暴露在游离辐射(ionizing radiation)下。此过程可以灭除食物上的微生物、细菌、病毒或微小虫类。其他的
  • 克莱斯特贝恩德·海因里希·威廉·冯·克莱斯特(Bernd Heinrich Wilhelm von Kleist,1777年10月18日奥得河畔法兰克福—1811年11月21日万湖),德国诗人、戏剧家、小说家。克莱斯特的家族
  • 洛桑联邦理工学院坐标:46°31′13″N 06°33′56″E / 46.52028°N 6.56556°E / 46.52028; 6.56556洛桑联邦理工学院(EPFL)(法语:École polytechnique fédérale de Lausanne,缩写EPFL),是一所世
  • 全景摄影全景图(panorama)是一种广角图,可以以画作、照片、影片、三维模型的形式存在。全景图这个词最早由爱尔兰画家罗伯特·巴克提出,用以描述他创作的爱丁堡全景画。现代的全景图多指
  • 可兑换比索可兑换比索(Peso Convertible),是古巴的一种货币,货币符号为CUC。类似于中国大陆以前的外汇券。可兑换比索在2004年古巴禁止美元流通以前与美元等值,至2017年时,若以美金直接兑换
  • 赤獴赤獴(学名 Herpestes smithii) 是一种生活在印度半岛和斯里兰卡的山林中的獴科动物。
  • IMFIMF可指:
  • 表皮 (皮肤)表皮是人和动物皮肤的外层,由胚胎时期外胚层形成。在多细胞无脊椎动物,一般为单层细胞,其表面有细胞分泌的角质膜或外骨骼,起到保护作用,如蠕虫的角质膜和节肢动物的外骨骼。原索
  • 多米尼克·威尔金斯杰克斯·多米尼克·威尔金斯(英语:Jacques Dominique Wilkins,1960年1月12日-),出生于法国巴黎,美国职业篮球运动员,前NBA球员,被选为篮球名人堂成员。绰号为人类电影精华(The Human H