C4.5算法

✍ dations ◷ 2025-08-16 08:19:10 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 成瘾症物质使用疾患(英语:Substance use disorder),又称为药物滥用失常(drug use disorder),医学名词,指一个人使用一种或多种物质之后,导致临床上出现显著减损或是不适症状。在这边的物质(S
  • 火星科学实验室火星科学实验室(Mars Science Laboratory),是美国宇航局火星探索计划,其主要利用火星探测器。火箭于2011年11月26日15:02(UTC)发射,并在2012年8月6日05:31UTC使好奇号成功登陆火星
  • 浦项港浦项市(朝鲜语:포항시/浦項市 Pohang si */?;朝鲜语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode
  • font color=white菲律宾/font下面是菲律宾大专院校的列表:
  • 中国国家5A级旅游景区国家5A级旅游景区依照《旅游景区质量等级的划分与评定》国家标准(标准中对AAAAA级旅游景区提出了12项条件,即旅游交通、游览、旅游安全、卫生、邮电服务、旅游购物、经营管理
  • 鱼酱鱼酱(拉丁语:garum)是一种把渔获发酵而成的调味料,在环地中海地区,如:古希腊、古罗马及拜占廷帝国的饮食里均有使用。相传在古代的腓尼基人就已经懂得制作鱼酱,并传播至古希腊,然后
  • 埃及第五王朝第 八第 十埃及第五王朝是自前25世纪至前24世纪统治古埃及的一个王朝,历时约150年。埃及第五王朝法老列表:
  • 各国世界遗产数列表至2019年7月为止,通过世界遗产评定准则的世界遗产共有1,113处,分别位于167个成员国国内。1113处世界遗产中,文化遗产占861处,自然遗产占213处,文化与自然双重遗产占39处。世界遗
  • 骆玉笙骆玉笙(1914年8月31日-2002年5月5日),曾用艺名小彩舞、筱彩舞,女,天津人,生于上海,中国当代曲艺大师、鼓曲界泰斗、京韵大鼓“骆派”艺术的创始人,有“金嗓鼓王”的美誉。第五、六、
  • 下霹雳县下霹雳县(马来语:Hilir Perak)是马来西亚霹雳州的一个县,位于州的西南部。北界霹雳河(英语:Perak River),西临马六甲海峡,南临峇眼拿督县。面积1,727平方公里。2010年人口202,593人,土