C4.5算法

✍ dations ◷ 2025-11-20 00:54:51 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 碳酸镁0.0063 g/100ml (100 °C)碳酸镁(magnesium carbonate),化学式MgCO3,是一种含镁元素的白色粉末状无机化合物。碳酸镁的化学性质稳定,无毒无味,不可燃。与酸性比碳酸强的酸发生复分
  • 1040年重要事件及趋势重要人物
  • 伊斯基亚伊斯基亚(Ischia)是第勒尼安海中的一个火山岛,距离意大利南部城市那不勒斯约为30公里。岛屿的形状大致呈梯形,东西长约10公里,南北约7公里,海岸线总长约34公里,面积46.3平方公里。
  • 宿雾太平洋航空宿务太平洋航空(简称宿务太平洋;英文:Cebu Pacific Air)是菲律宾的一家廉价航空公司,亦是该国最具代表性的航空公司之一,专门营运国内和国际航班。宿务太平洋是目前菲律宾领先的国
  • 本都希腊语本都希腊语(Ποντιακή διάλεκτος或Ποντιακά)是希腊语的一种,使用在本都地区,包括东北安纳托利亚、黑海、土耳其的卡尔斯省、南格鲁吉亚、今天主要在希
  • 吕雉吕雉(?-前180年8月18日),字娥姁,汉高祖刘邦皇后。通称吕后,或称汉高后、吕太后、高皇后。东汉时光武帝改薄太后为高皇后,吕后为高后。山东单父(今单县)人,为汉高祖刘邦任亭长时所娶元配
  • 东河 (佛罗里达州)东河(英语:East River)是一条长约10-英里(16-千米)的河流,位于美国佛罗里达州沃库拉县,在圣马克国家自然保护区汇入圣马克河,最终流入墨西哥湾。
  • 威廉·亚当 (建筑师)威廉·亚当(William Adam,1689年10月 – 1748年6月24日)是一位苏格兰建筑师和商人,生前是苏格兰著名的建筑师之一。 他有时担任建筑师,有时也当独立承包商。他设计建造的建筑多属
  • 建构建构主要应用在文化研究、社会科学和文学批评的分析上。建构是一个借用自建筑学的词语,原指建筑起一种构造。在文化研究、社会科学和文学批评上的使用,建构是指在已有的文本上
  • 裕禄裕禄(1844年-1900年),喜塔腊氏,字寿山、寿泉,满洲正白旗人,湖北巡抚崇纶子。曾任安徽按察使、安徽巡抚、湖广总督、盛京将军、四川总督。1898年授军机大臣、礼部尚书、总理各国事务