C4.5算法

✍ dations ◷ 2025-11-28 01:22:21 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • FDP自由民主党(德语:Freie Demokratische Partei,缩写为FDP),1968年–2001年期间缩写为F.D.P.,是德国的一个经济自由主义政党,是德国政坛中历史比较悠久的政党之一。威斯巴登基本原则
  • 中洋脊洋中脊(Mid-ocean ridge),又称洋脊、大洋中脊、中央海岭,是位于全球海中张裂性板块边界的一系列火山结构系统,也是世界上最长的山脉、海底山脉,长达80,000千米(49,700英里),其中连续
  • 伍德兰期疏林时代(Woodland Period)是一个专门名称,指称美国中东部地区前哥伦布时期的古代印第安人文化位于公元前11世纪至公元11世纪之间的阶段。北美洲中东部是一片广阔平坦的大平原,
  • 阴道萎缩萎缩性阴道炎(英语:Atrophic vaginitis),也称老年性阴道炎,是一种常见的阴道炎症,常见于绝经后的老年妇女或长期哺乳的女性,也可发生于双侧卵巢切除术后的女性。它与外阴炎通常同时
  • 果食主义果食主义(英语:Fruitarianism)是素食主义或纯素主义的一种,主张植物同样具有不可践踏的生命,因此主义实践者只吃植物的果实。果食主义中关于果的定义来自于植物学而非日常用语,也
  • 自然卷自来卷,又称自然卷,是一种受遗传基因的影响,天生头发长成卷状的发型。形成原因是由于人类的遗传基因不同,在世界上的很多种族中都会出现,尤其是在高加索人种中比较常见。由于头发
  • 约翰·海图书馆约翰·海图书馆(又译约翰·海伊图书馆,英语:John Hay Library)是布朗大学第二古老的图书馆,位于美国罗得岛州普罗维登斯学院山(英语:College Hill)的凡·韦科尔门外西北角,得名于该校
  • X战警:天启《X战警:天启》(英语:)是一部由布莱恩·辛格执导的2016年美国超级英雄电影,改编自漫威漫画出版的漫画书《X战警》。本片为2014年电影《X战警:逆转未来》的续集和“X战警系列电影”
  • 葡萄糖-1-磷酸葡萄糖-1-磷酸(英语:Glucose 1-phosphate或 cori ester)是葡萄糖上1'-碳原子磷酸化的产物,它可以存在α- 和β-两种异头物。医学导航:遗传代谢缺陷代谢、k,c/g/r/p/y/i,f/h/s/l/o
  • 衍射镜衍射镜是一种刻有一系列同心圆线的镜片,它会使一道光线散成很多道,可使人在脑中产生立体形像。衍射镜会运用于摄影上。一般的DVD-ROM之中,也会用到衍射镜。