C4.5算法

✍ dations ◷ 2025-07-11 16:10:43 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 均三甲苯均三甲苯(mesitylene),又名1,3,5-三甲苯、艹+米,分子式C9H12,是苯环上三个氢对称地被三个甲基取代而得到的芳香烃。用硫酸处理丙酮后蒸馏(发生羟醛缩合反应),或者将丙炔在硫酸作用下
  • 梅斯梅斯县(Mayes County, Oklahoma)是美国奥克拉荷马州东北部的一个县。面积1,770平方公里。根据美国2000年人口普查,共有人口38,369人。县治普赖尔(Pryor)。成立于1907年7月16日。
  • 林登·B·约翰逊林登·贝恩斯·约翰逊(英语:Lyndon Baines Johnson,1908年8月27日-1973年1月22日),时常缩写称LBJ,美国政治人物,1963年至1969年担任第36任美国总统,1961年至1963年于约翰·肯尼迪任下
  • 氢羟肾上腺皮质素氢羟肾上腺皮质素(英语:Hydrocortisone),又称氢化皮质酮或氢化可体松,即激素皮质醇作为药物时的名称,在市面上有多家药商出售此药可用来治疗如肾上腺皮质功能不全(英语:Adrenal_insu
  • 托马斯·施泰茨托马斯·阿瑟·施泰茨(英语:Thomas Arthur Steitz,1940年8月23日-2018年10月9日),美国生物化学家,2009年诺贝尔化学奖得主之一。施泰茨出生于美国威斯康星州的密尔沃基,1962年本科毕
  • 自由度 (统计学)在统计学中,自由度(英语:degree of freedom, df)是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。一般来说,自由度等于独立变
  • 美国镭企业美国镭企业是一家从事国防工业的美国公司,在1917至1926年间,该公司于新泽西州奥兰治的营运曾引发了一阵劳工安全的抗争运动。在成功地研发了能在黑暗中发光(英语:Radioluminesce
  • 中西重忠中西重忠(日语:中西 重忠/なかにし しげただダ ,1942年1月7日-),日本生物化学家、神经学家。美国文理科学院外籍名誉院士、美国国家科学院外籍院士,现任大阪生物科学研究所(日语:大阪
  • 藤堂明保藤堂明保(1914年11月19日-1985年2月26日),日本汉学家,研究汉语音韵学、语源学和文字学。代表作有《中国语音韵论》(1957)、《汉字语源辞典》(1965)、《漢字とその文化圏》(汉字及其文
  • 东关街道 (保定市)东关街道,是中华人民共和国河北省保定市莲池区下辖的一个乡镇级行政单位。东关街道下辖以下地区:东方苑社区、梨园街社区、东进巷社区、三医院社区、合作路社区、河大社区、卫