C4.5算法

✍ dations ◷ 2025-12-06 21:50:44 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 柬埔寨法院特别法庭柬埔寨法院特别法庭(高棉语:អង្គជំនុំជម្រះវិសាមញ្ញក្នុងតុលាការកម្ពុជា,angk chomnoumchomreah visaeamonhnh knong tolakar kampo
  • 西北联邦管区西北部联邦管区(俄语:Северо-западный федеральный округ,罗马化:Severo-zapadny federalny okrug)位于俄罗斯西北部,是目前俄罗斯的联邦管区之一
  • 邱大洪邱大洪(1930年4月-),祖籍浙江吴兴,出生于上海,海岸和近海工程专家,中国科学院院士。早年就读于上海市南洋模范中学。1947年考入清华大学土木工程系。1951年毕业,此后一直在大连工学
  • 严加安严加安(1941年12月6日-),中国数学家。生于江苏邗江(现为扬州市邗江区)。1964年毕业于中国科学技术大学应用数学系。1999年当选为中国科学院院士。 中国科学院数学与系统科学研究院
  • 1046年重要事件及趋势重要人物
  • 周小燕周小燕(1917年8月17日-2016年3月4日),湖北武汉人,中国花腔女高音歌唱家、声乐教育家,上海音乐学院终身教授。她为1937年刘雪庵作曲、潘孑农作词抗日歌曲《长城谣》原唱。1917年8月
  • 夏洛特夏洛特(英语:Charlotte)可以是数个地方的名称或一部电视动画,也是常用女性人名,有时被翻译做夏绿蒂。
  • 笔尾獴属笔尾獴(学名 Cynictis penicillata) 也叫黄獴,是一种小型的獴科动物。笔尾獴平均体重0.5公斤,体长500毫米,生活在安哥拉、博茨瓦纳、南非、纳米比亚和津巴布韦的半沙漠灌木地区和
  • 2019冠状病毒病海南省疫情2019冠状病毒病海南省疫情,介绍2019冠状病毒病疫情中,在中华人民共和国海南省发生的情况。2020年1月21日,发现一例疑似病例。该患者1月14日从武汉抵达海南。目前,该疑似病例已及
  • 莫里斯·阿莱莫里斯·菲力·夏尔·阿莱(法语:Maurice Félix Charles Allais,1911年5月31日-2010年10月9日),生于法国巴黎,法国总体经济学家,主要研究领域为市场理论与资源的效率分配,曾经提出阿