C4.5算法

✍ dations ◷ 2025-11-29 04:53:37 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 汉萨同盟汉萨同盟(拉丁语:Hansa、Hansa Teutonica或Liga Hanseatica,英语:Hanseatic League,又译汉撒同盟和汉莎同盟),12-13世纪中欧的神圣罗马帝国与条顿骑士团诸城市之间形成的商业、政治
  • 污染物排放控制技术污染物排放控制基本从三个方面开发:第一种方法是目前最常用的方法,但需要投入并没有经济效益,采取这种方法肯定会增加生产成本,降低产品竞争力,一般污染物排放单位不会自动处理,必
  • 日本医科大学日本医科大学(日语:日本医科大学/にほんいかだいがく Nihon ika daigaku */?)是位于东京都文京区的一所私立大学。
  • 气象天气是大气状态的一种表征,反映大气是冷还是热、是干还是湿、是平静还是狂暴、是晴朗还是多云等等。绝大多数天气现象发生在平流层之下的对流层。天气通常指每天的温度和降水
  • 格兰泰格兰泰(德语:Grünenthal GmbH)是德国最大的和镇痛药研究和生产企业之一,拥有最现代化的研究所和生产厂,具有独立完备的新药开发能力。沙利窦迈(Thalidomide)是格兰泰最“著名”的
  • 甲癣甲癣(onychomycosis),俗称臭甲、灰指甲,泛指受到真菌感染的指甲,通常影响脚趾,但手指甲也有可能出现。两成指甲病是由甲癣所引起。甲癣的成因是真菌感染,主要细为分酵母菌感染、霉
  • 新仙女木事件新仙女木事件,也称为克洛维斯彗星假说,是为解释末次冰期之后的新仙女木期的一个极具竞争性的科学假说。这个假设,科学家们还在争辩中,提出当时的气候是因为一颗或多颗彗星的撞击
  • 单壳藻目单壳藻目为藻类植物之一植物目。该植物于植物分类表上,归于硅藻门(Bacillariophyta)同纲者尚有无壳藻目、短壳藻目、双壳藻目、管壳藻目等等植物目。
  • 中华人民共和国沿海开放城市中华人民共和国沿海开放城市,中华人民共和国在改革开放中,为鼓励对外经济合作和技术交流而给予外商以若干优惠待遇的沿海港口城市。1984年5月曾以大连、秦皇岛、天津、烟台、
  • 张惺张惺(1995年8月16日-)别名Tehu,是一名知名日本大学生、程式员,日本华侨。目前就读庆应义塾大学SFC环境情报学部,但处于休学状态。出生于兵库县神户市,就读知名的难关学校滩中学校・