C4.5算法

✍ dations ◷ 2025-12-06 06:48:04 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • XX染色体(X chromosome)是部分动物决定性别的染色体之一。它出现在X0和XY性别决定系统中。对一般人类来说,女性有两条X染色体,男性X、Y染色体各有一条。在人类约20000至25000个基
  • 贵族贵族(拉丁语:Patricius、意大利语:Patrizio)是指古罗马帝国享有一些特权的古罗马公民。他们属于特权阶级,地位高于平民,是古罗马社会中最富有的成员。在前400年前,他们曾垄断全部官
  • 水语水语是壮侗语系侗台语族侗水语支的一种语言,为水族人所使用,目前这种语言有大约20多万人使用。主要分布在中国贵州省黔南布依族苗族自治州境内的三都水族自治县,此外,邻近的几个
  • 精密医学精准医学(Precision medicine,简称PM),是一种针对病患的个别情形,进行医疗卫生个别化的医学模式,包括医学决策、治疗、实务以及药品都是针对此病患的情形所规划的。此医学模式下,诊
  • 无常 (伊斯兰教)无常一词是回族的伊斯兰教用语,表示肉身的死亡,也有人称之为“毛提”(阿拉伯语:موت‎,mawt,有时也使用音近的汉语既有词“殁”)或“归真”。除回族外,撒拉族、东乡族、保安族也称
  • 1763年公告《1763年公告》(又名《1763年皇家宣言》;英语:Royal Proclamation of 1763)发布于1763年10月7日,由英国国王乔治三世赢得七年战争,从法国手上获得新法兰西后发布。该公告的目的是
  • 果蝇性状黑腹果蝇 (学名:) 为生物学研究的重要模式生物。实验上,透过遗传学以及分子生物学的技术,建立带有特定基因型的品系或子代,进行后续的研究,故须追踪子代遗传的染色体是否符合实验
  • 葛修润葛修润(1934年7月12日-),上海南汇人,岩石力学专家,中国工程院院士。葛修润早年曾就读于上海市南洋模范中学。1952年考入清华大学水利系。1954年赴苏联敖德萨建筑工程学院(Одес
  • 查理-斐迪南 (贝里公爵)查理-斐迪南(法语:,1778年1月24日-1820年2月14日),贝里公爵(英语:Duke of Berry),法国波旁复辟时期的国王查理十世的次子,路易十九的弟弟。1820年2月13日,他在携妻离开国立巴黎歌剧团时
  • 建筑规范建筑规范(英语:building code)是规范建构物(例如建筑物和非建筑结构物)的标准的一系列规则。建筑物必须符合这规范方可获得计划许可(英语:planning permission),计划许可一般从当地议