C4.5算法

✍ dations ◷ 2025-11-15 04:49:57 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 成土作用成土作用是土壤形成的过程,也称为成土过程,这也是母质产生肥力而转变成土壤的过程。母质又是岩石的风化产物。因此从母岩变成土壤,实际上包括两个相互关联的不同过程,即从母岩形
  • 白色念珠菌白色念珠菌(学名:Candida albicans)是一种能造成伺机性感染的酵母菌,常见于人类消化道与泌尿生殖道的菌群,约有四成至六成健康成人的口腔与消化道中都有白色念珠菌,平时与人体行片
  • 掌骨掌骨是手部骨骼中间的部分,连接在近端手指及腕骨之间,而腕骨再与前臂连结。掌骨由五个圆柱状的骨头组成,由桡骨到尺骨侧依序命名(I-V)。每个由一块主体及两个极端组成。人体手部
  • 战南北在台湾,战南北是指住在台湾北部和南部居民,因为生活习惯、观点或是资源等差异,而出现互相比较、争执或是嘲讽的情形。常出现于PTT、网络及新闻媒体,是网络常见话题之一。冲突常
  • 国立台湾科技大学管理学院国立台湾科技大学管理学院(英语:National Taiwan University of Science and Technology School of Management),简称台科管院,是国立台湾科技大学的六所学院之一,近年更通过国际
  • 东风-31洲际弹道导弹东风-31(DF-31,北约代号:CSS-10),是中华人民共和国研制的一种公路机动型三级固体推进剂洲际弹道导弹;包括东风-31、东风-31A(甲)、东风-31AG(甲改)增强型三种型号。东风-31基本型
  • 马特峰马特峰(德语:Matterhorn,意大利语:Monte Cervino,法语:Mont Cervin)也称马特洪峰、切尔维诺峰,是阿尔卑斯山脉中最著名的山峰。马特峰的位置在瑞士、意大利边境,附近是瑞士瓦莱州小镇
  • 乘积法则乘积法则,也称积定则、莱布尼兹法则,是数学中关于两个函数的积的导数的一个计算法则。若已知两个可导函数 f , g {\displayst
  • 嘉利-马蒂·拉特瓦拉亚里-马蒂·拉特瓦拉(芬兰语:Jari-Matti Latvala,又译为嘉利-马蒂·拉特瓦拉;1985年4月2日-),芬兰人,世界拉力锦标赛(WRC)车手。自2003年德国拉力赛起,他的领航员(英语:co-driver)为米卡·
  • 苏联五年计划苏联五年计划(俄语:пятилетка)是苏联在斯大林统治时期全国性的经济计划,目标是令苏联的经济迅速发展。该计划是由斯大林推展,由苏联国家计划委员会(Госплан)在生产