C4.5算法

✍ dations ◷ 2025-12-10 03:00:54 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 越族越族可能指:
  • 硬颚挤喉音(Palatal ejective)是一种辅音,出现于一些口语中。国际音标将此音记作⟨cʼ⟩,其对应的X-SAMPA音标为c`_>。硬颚挤喉音的特征包括:此音主要出现在一些美洲原住民的语言
  • 达尔戈梅日斯基亚历山大·谢尔盖耶维奇·达尔戈梅日斯基(俄语:Александр Сергеевич Даргомыжский,1813年2月14日-1869年1月17日),俄罗斯作曲家。早年结识格林卡后
  • 淳于意淳于意(前205年-前150年),临淄(今山东淄博)人,汉初著名医学家,因其曾任太仓令(或曰太仓长),故世称“仓公”。仓公曾拜公孙光为师,学习古代的医学典籍和临床经验。公孙光又推荐仓公去向公
  • ANN全日本新闻网(英语:All-Nippon News Network,日语:オールニッポンニュース・ネットワーク,简称:ANN)是以朝日电视台和朝日放送为核心的电视联播网,目前共有26个加盟电视台。在大多数
  • 刘奕儿《美好年代》《浮士德的微笑》《报告老师!怪怪怪怪物!》 《刘奕儿(Eugenie Liu,1990年11月12日-),出生于台湾台北市,台湾女演员,粉丝名为小年兽。 2014年出道前曾获MOD微电影创作大
  • 巢湖市巢湖市位于中国安徽省中部,是安徽省直辖、由合肥市代管的一个县级市。巢湖市历史悠久,是华夏文明的发祥地之一。1982~1986年间,考古人员经3次发掘,在巢湖市南的银屏山银山村一块
  • 富尔巴里乌帕齐拉 (迪纳杰布尔县)富尔巴里乌帕齐拉(孟加拉语:ফুলবাড়ী,英语:Fulbari Upazila)是孟加拉国迪纳杰布尔县的一个乌帕齐拉,位于朗布尔专区的迪纳杰布尔县。。据1991年孟加拉国人口普查(英语:1991
  • 中华人民共和国手机实名制手机实名制是中国实行手机实名登记的规定,2010年9月1日正式实施,规定须提供个人信息实名登记入网。当局表示,这一举措是为了打击电话诈骗和垃圾短信等不良信息的泛滥。各地电信
  • 邛竹杖邛竹又名石竹、罗汉竹,原产于四川邛崃,此竹独特,非常稀有。邛竹杖由邛竹加工而成。《史记·大宛传》载,张骞出使西域,“在大夏时,见邛竹杖、蜀布”。