C4.5算法

✍ dations ◷ 2025-11-30 06:07:27 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 爱德华·萨义德爱德华·瓦迪厄·萨义德(阿拉伯语:إدوارد سعيد‎,英语:Edward Wadie Said,1935年11月1日-2003年9月25日),国际著名文学理论家与批评家,后殖民理论的创始人,也是巴勒斯坦建
  • 刘 明刘明(1964年4月-),生于江西丰城,籍贯安徽宿州,中国微电子科学与技术专家,中国科学院微电子研究所研究员。2017年当选为中国科学院院士。1964年生于江西丰城,籍贯安徽宿州,1985年毕业
  • 智乐堂智乐堂网络股份有限公司(英语:Zealot Digital International Corp),简称智乐堂,是台湾的电脑游戏研制、发行公司,旧名为汉堂国际资讯股份有限公司(英语:Dyansty International Infor
  • DNA引发酶引发酶(英语:primase,或译为引子酶,引物酶)是指在DNA复制的起始阶段合成单链RNA引物的RNA聚合酶,引物合成后,DNA聚合酶会沿着引物继续合成单链DNA(延伸),此后RNA引物片段会被外切酶5'
  • 桥隧组合公路隧桥是以桥梁、隧道及堤岸为组合不中断地横跨某一水体的道路或铁路运输,其中并没使用吊桥或渡轮。以下为隧桥列表:
  • 亚南极群岛新西兰亚南极群岛包括五组群岛。这些群岛都位于新西兰南岛的东南海面上。除了在坎贝尔岛上有个气象站有科学研究人员外,其他岛都无人定居。这些岛屿都被加入了世界遗产,总称为
  • 科珀斯克里斯蒂市科珀斯克里斯蒂(Corpus Christi,又译为圣体市)位于美国得克萨斯州东南部墨西哥湾畔,是纽埃西斯县的县治所在,人口约28万(2004年)。德克萨斯农工大学科伯斯克里斯蒂分校 (TAMUCC)
  • 巴西外交巴西外交由巴西对外关系部(Ministério das Relações Exteriores)负责掌理,巴西在拉丁美洲的政治与经济上占有举足轻重的地位,也是世界政经关系的要角。巴西的外交政策反映其
  • 马尼乌斯·阿基利乌斯 (前129年执政官)马尼乌斯·阿基利乌斯(拉丁语:Manius Aquillius)是公元前129年的罗马执政官。他结束了对欧迈尼斯二世之子、帕加马之王阿里斯东尼克的战争。而在此前,这场战争已几乎被其前任马
  • 希拉里·曼特尔希拉里·玛丽·曼特尔女爵士,DBE(英语:Dame Hilary Mary Mantel,1952年7月6日-),婚前姓汤普森,英国小说家、散文家和评论家。她的工作,包括个人回忆录和历史小说,曾参与好几个重要文学