C4.5算法

✍ dations ◷ 2025-06-30 21:57:35 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 臼齿大臼齿,简称臼齿,俗称磨牙(客语:撞牙),是人类和其它哺乳动物的一种牙齿。大臼齿位于口腔后方,因上端扁平而且主要用来研磨和咀嚼食物而得名。臼齿由于随使用而被磨损,可以被用来判定
  • 日本行政机关政治主题日本的行政机关,指日本负责国家行政事务的政府机关,主要是内阁下属的各政府机关。相对于地方公共团体(地方政府),称作为中央官厅、中央省厅(Central Government),或简称为省
  • 韩非法家系列条目战国:李悝、吴起、慎到、申不害、   商鞅、李斯、韩非韩非(约前281年-前233年),生活于战国末期时期的韩国(今属河南省新郑市)的思想家,为中国古代著名法家思想的代表
  • 西格蒙杜尔·古恩劳格松西格蒙杜尔·戴维·贡劳格松(冰岛文:Sigmundur Davíð Gunnlaugsson,音标: .mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","L
  • 美国第一银行美国银行的总裁、董事和公司(英语:The President, Directors and Company, of the Bank of the United States),通常被称为美国第一银行(英语:First Bank of the United States),是
  • 陈述 (逻辑)在逻辑中,一个陈述可以是:若陈述是指后者,陈述和语句是不同的,语句只是一种陈述的逻辑型式(英语:Logic form),也有可能存在许多可以表达同一陈述的不同语句。&   ∨   ¬   ~
  • 鲭亚目鲭亚目为辐鳍鱼纲鲈形目的其中一个亚目。特点是前颌骨固着于上颌骨,不能向前伸出。背鳍鳍棘正常。臀鳍前无游离鳍棘。有或无皮肤血管系统。鱼体大多纺锤形,多是一些快速游泳的
  • 弗兰茨·梅林弗兰茨·梅林(德语:Franz Erdmann Mehring,1846年-1919年)是一位德国公共知识分子、政治家、历史学家、国际工人运动活动家、德国社会民主党左翼领袖、理论家、德国共产党创始人
  • 卵圆月华螺卵圆月华螺(学名:)为阿地螺科月华螺属的动物。分布于日本、朝鲜、玻利尼西亚、塔希提岛以及中国大陆的山东等地,属于温带性种类。其常见于潮间带石头下、海藻间。
  • 汉书 (软件)汉书,原名书中仙,由大方广资讯发行,是从DOS时期发展至今的一套中文文书处理软件。其旧版本汉书4/5(HE4/5)相当于PE2的竞争对手。最新的版本为汉书V11.7。汉书的前身是建构于PE2之