C4.5算法

✍ dations ◷ 2025-11-21 11:03:29 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 腐殖质腐殖质是土壤特异有机质,也是土壤有机质的主要组成部分,约占有机质总量的50%-65%。腐殖质是一种分子复杂、抗分解性强的棕色或暗棕色无定形胶体,动植物残体(如植物组织(枯枝落叶)和
  • 阿兰·霍奇金艾伦·劳埃德·霍奇金爵士,OM,KBE,FRS(英语:Sir Alan Lloyd Hodgkin,1914年2月5日-1998年12月20日),英国生理学家与生物物理学家,与安德鲁·赫胥黎(Andrew Fielding Huxley)因为共同研究
  • 野外消防森林消防是对于森林火灾的救援专业,野外的环境与城市火灾有大量不同,引燃物是低价值的树木同时人口稀少,而且水源取得困难,风向猛烈影响火情巨大,所以森林消防重心放在于火区的封
  • 黄昏鸟†H. regalis Marsh, 1872 †H. crassipes (Marsh, 1876) †H. gracilis Marsh, 1876 †H. altus (Marsh, 1893) †H. montana Schufeldt, 1915 †H. rossicus Nesov & Yark
  • 穆斯塔法·阿布·沙古尔穆斯塔法·阿布·沙古尔(阿拉伯语:مصطفى ابوشاقور غيت ابوشاقور‎ ;1951年2月15日出生) 是一名利比亚政治家、电气工程教授和企业家。2012年9月12日被
  • 2005年9月逝世人物列表2005年逝世人物列表:1月 - 2月 - 3月 - 4月 - 5月 - 6月 - 7月 - 8月 - 9月 - 10月 - 11月 - 12月下面是2005年9月逝世的知名人士列表:
  • 何塞·劳尔·卡帕布兰卡何塞·劳尔·卡帕布兰卡-格劳贝拉(西班牙语:José Raúl Capablanca y Graupera,1888年11月19日-1942年3月8日),古巴国际象棋大师,出生于哈瓦那,曾是国际象棋世界冠军(1921年-1927年),
  • 卡米伊·弗拉马利翁尼可拉斯·卡米伊·弗拉马利翁(或翻译为弗拉马里翁,法语:Nicolas Camille Flammarion,1842年2月26日-1925年6月3日),法国天文学家、作家和灵性主义(英语:Spiritualism)者。他是一位多
  • 清浦奎吾清浦圭吾(1850年3月27日-1942年11月5日),日本政治家,第23任日本内阁总理大臣。历任司法官、贵族院议员、司法大臣、农商务大臣、枢密院议长等职务。1924年出任日本首相,但由于其阁
  • 南宝山镇南宝山镇,原为南宝乡,是中华人民共和国四川省成都市邛崃市下辖的一个乡镇级行政单位。2019年12月,将南宝山镇茶板村、金甲村、常乐村、大葫村所属行政区域划归火井镇管辖。南宝