C4.5算法

✍ dations ◷ 2025-12-02 14:55:43 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 苏格兰威士忌苏格兰威士忌(Scotch Whisky,或直接简称Scotch),是一种只在苏格兰地区生产制造的威士忌。特色上,苏格兰威士忌与其他种类的威士忌,尤其是它极为相似的邻居爱尔兰威士忌最大的不同,
  • 蝶鞍土耳其鞍(Sella turcica)意即土耳其椅,又名蝶鞍,为蝶骨上一鞍型构造,存在于人、黑猩猩、猩猩及大猩猩等人科动物的颅骨上。为头影测量的标志位置。土耳其鞍位于颅中窝正中部、蝶
  • 运动控制参数所指定的目标页面不存在,建议更正成存在页面或直接建立下列一个页面(建立前请先搜寻是否有合适的存在页面可以取代):]]运动控制(Motion control)是自动化技术的一部分,是指让系
  • 陆英修陆英修(韩语:육영수,1925年11月29日-1974年8月15日),前韩国第一夫人,韩国前总统朴正熙的妻子,亦是韩国前总统朴槿惠的母亲。陆英修1925年11月29日出生于今韩国忠清北道沃川郡名门。
  • 美利坚合众国宪法第一条修正案宪法正文I ∙ II ∙ III ∙ IV ∙ V ∙ VI ∙ VII其它修正案 XI ∙ XII ∙ XIII ∙ XIV ∙ XV XVI ∙ XVII ∙ XVIII ∙ XIX ∙ XX XXI ∙ XXII ∙ XXIII ∙
  • 平舆县平舆县位于中华人民共和国河南省东南部,是驻马店市下辖的一个县。平舆县位于河南省驻马店市、周口市与安徽省阜阳市结合处。地处淮北平原,地势平坦,粮食作物以小麦和玉米为主,经
  • 船之科学馆船之科学馆(船の科学館),是位于日本东京都台场品川区东八潮的海洋科学博物馆。展品包括日本船只,以及海军、航运业、捕鱼、帆船、海上娱乐、船舶设计和建造以及日本周围海洋环境
  • 外交部长新西兰外交部长(Minister of Foreign Affairs (New Zealand)) 是新西兰政府的高级成员之一。 外交部长负责外交和贸易部,负责新西兰对外关系。目前外交部长是 温斯顿·彼特
  • 古列尔莫·斯滕达尔多古列尔莫·斯滕达尔多(Guglielmo Stendardo)是意大利的一位足球运动员。在场上司职中后卫。他现在效力于意大利足球甲级联赛球队亚特兰大足球俱乐部。
  • 皇帝的新装《皇帝的新装》(丹麦语:Keiserens nye Klæder,英语:The Emperor's New Clothes),也译作《国王的新衣》,安徒生童话系列中的故事,首次发表于1837年,收录在《讲给孩子们听的故事(英语:Fa