C4.5算法

✍ dations ◷ 2025-12-01 17:56:54 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 空窗期空窗期(英语:window period)在医学检验的领域中,指的是:“从生物体受到疾病感染 那一刻开始直到医学检验可有效侦测到生物体受到疾病感染那一刻为止”中间的时期。例如:一个生物体
  • 口腔卫生师口腔卫生师(英语:Dental Hygienist或 Oral Hygienist,日语:齒科衛生士),为口腔医学专业人员其中一员。在公众场域,负责对大众提供口腔卫生教育、健康促进,进行口腔疾病专业预防处置,
  • 中心地理论中心地理论(英语:central place theory),出自德国地理学家克里斯塔勒于1933年出版的著作《地图的中心说》中。著作里克里斯塔勒以系统性的科学概念,配以数学计算,旨在解释人类聚落
  • 食欲欠佳食欲不振(英语:Anorexia),也作食欲减退、食欲缺乏,民间常称“没胃口”,是指食欲降低的一种症状。虽然在许多非科研出版物中该词也可指代神经性厌食症,但是食欲不振的成因却多种多样
  • 1495年重要事件重要人物
  • 佛罗里达新学院佛罗里达新学院(New College of Florida)是位于美国佛罗里达州萨拉索塔的一所公立文理学院,为佛罗里达州立大学系统成员。该学院创立于1960年,资金来自于联合基督教会,在2017年《
  • 角屹山角屹山(韩语:각흘산)是一座位于韩国江原道铁原郡和京畿道抱川市之间的山峰,主峰标高海拔838米。
  • 双连坡断层双连坡断层是台湾桃园的一条断层,根据经济部中央地质调查所2000年的资料,将双连坡断层列为存疑性活动断层,该断层始于上阴影窝附近的纵贯铁路南侧,截断伯公冈台地北侧社子溪的河
  • 陆志鸿陆志鸿(1897年-1973年5月4日),字筱海,工程材料学家、教育家、金相学家。 浙江嘉兴人,出生地方望族,父陆祖谷曾任浙江省立图书馆馆长。陆志鸿幼年由祖母、父亲受读诗书、史地、算数,
  • 银行4.0银行4.0:传统银行的在中间化策略。指的是传统金融公司为了提升竞争力,利用新的ICT ,以虚实合一为精神。提升银行的自动、数位、行动、效率化的一种改革与创新的经营模式。