C4.5算法

✍ dations ◷ 2025-09-11 03:22:39 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 特高频特高频(英语:Ultra High Frequency,简称UHF),是指频率由300MHz到3GHz的电磁波。波长由10cm到1m不等。用于短途通信,可以用小而短的天线作收发,适合移动通信。← 波长越短    
  • 痳疯麻风病(英语:Leprosy),又作麻疯、癞病、疠风,医学领域称为汉生病或韩森氏病(英语:Hansen's Disease),是由麻风杆菌与弥漫型麻风分枝杆菌引起的一种慢性传染病,主要经由飞沫传染但传染
  • 汤顿汤顿(英语:Taunton)位于美国马萨诸塞州东南部,是布里斯托尔县的县治所在,面积124.2平方公里。根据2000年美国人口普查,共有55,976人,其中白人占91.67%、非裔美国人占2.74%。历史 |
  • 电脑蠕虫计算机蠕虫(computer worm)与计算机病毒相似,是一种能够自我复制的计算机程序。与计算机病毒不同的是,计算机蠕虫不需要附在别的程序内,可能不用使用者介入操作也能自我复制或执
  • 回转半径回转半径是一个物理量。它可以用来计算转动惯量。当一支力矩作用于一个物体时,物体会依照转动惯量呈现应有的旋转运动。物体对于一支直轴或质心的回转半径,是此物体所有粒子,对
  • Ostwald, Wilhelm弗里德里希·威廉·奥斯特瓦尔德(德语:Friedrich Wilhelm Ostwald,拉脱维亚语:Vilhelms Ostvalds;1853年9月2日-1932年4月4日),出生于拉脱维亚的德国籍物理化学家。他提出了稀释定律
  • D·汤普森戴维·汤普森(英语:David Thompson,1954年7月13日-)是美国NBA联盟的前职业篮球运动员。
  • collationcollation,没有公认的译名,或译作“文字排序”,是指在计算机科学与图书馆学、词典编撰中书写信息的标准排序。如数值序(英语:numerical order)或者字母序(英语:alphabetical order)
  • 水谷琢顺水谷琢顺(-1850年)为日本江户时代围棋棋士,棋力六段。为本因坊家外家水谷家二世家督,为一世家督水谷琢元的儿子。拜于尚为本因坊家迹目的元丈门下,1798年留下与十二岁的奥贯濑六持
  • MaydayMayday是国际通用的无线电通话遇难求救信号(英语:Distress signal)。该信号通常为航海、航空器遇到危及性命的紧急情况时呼救所用,但个别地区的警察、消防、交通相关人员亦以此