C4.5算法

✍ dations ◷ 2025-11-25 23:46:38 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 安娜·海宁·贝茨安娜·海宁·贝茨(英语:Anna Haining Bates,1846年8月6日-1888年8月5日),原姓斯旺(英语:Swan),加拿大女性,因身高达7英尺11英寸(2.41米)而著名。父母为苏格兰移民,共有13个孩子,安娜排行第
  • 总统内阁制总统制是民主共和政体的一种,由行政首长领导一个独立于立法部门的行政部门。 在大多数情况下,这位政府首脑兼任国家元首,称为总统。在总统制国家,行政机构是选举产生的,不对立法
  • 彭亨州彭亨州(马来语:Pahang),全称Pahang Darul Makmur(意为“彭亨-繁荣的家邦; Darul:家邦,Makmur:繁荣),是西马来西亚最大的州属,州首府为关丹(Kuantan),皇城位于北根(Pekan)。马来西亚半岛最高
  • 中国国家自然遗产、国家自然与文化双遗产预备名录《中国国家自然遗产、国家自然与文化双遗产预备名录》(以下简称《预备名录》),理论上是推荐列入《世界自然遗产、自然与文化双遗产预备名单》的候选名录。根据原建设部《关于做
  • 过氧亚硝酸过氧亚硝酸(HNO3/HOONO/HONO2)是一种活性中间体,被广泛认为是自由基。它是过氧亚硝酸根(ONOO−)的共轭酸。它的pa约为6.8。过氧亚硝酸可以均裂成二氧化氮和羟基自由基,这是一对笼
  • 1933年大西洋飓风季1933年大西洋飓风季是有纪录以来第二活跃的大西洋飓风季,共计有20场风暴在大西洋西北部形成。其中第一场风暴于1933年5月14日形成,最后一个气旋在同年11月17日消散。6月28日到
  • 鲁格鲁格(Lugh)凯尔特神话中的太阳神。鲁格为司掌光明的神,于传说古代爱尔兰地区的一位至高王。工艺,武技,书文,医药,术法领域都是这一位英雄所精通的,如此不凡的能力让他于人界得有Ild
  • 路德维希·拉赫曼路德维希·拉赫曼(Ludwig Lachmann,1906年-1990年)是德国经济学家,也是奥地利经济学派的重要成员和理论贡献者。拉赫曼在1924年至1933年就读于柏林大学,并且从那里取得了他的博士
  • 冒险小虎队冒险小虎队,是由奥地利作家托马斯·布勒齐纳编著的小说。全书共有三十册,在奥地利非常畅销,因为此书有一种特殊制造的“小虎解密卡”,只要把卡放在书中的电子手账上,谜底便会显现
  • 1820年许昌地震1820年许昌地震,是指发生在1820年8月4日(清嘉庆二十五年六月二十六日),中国河南许州(今许昌)的6级地震。《清宣宗实录》有记载当时的灾情。据《清宣宗实录》记载:城内尚轻,唯东北一