C4.5算法

✍ dations ◷ 2025-07-18 09:50:42 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 海底海底生物界是与水域基底相连的生活区域,可分为滨海海底生物界(光线可透射的,夏季温暖的水域底层)和深海海底生物界(暗的,冷的水域底层)。在海底生物界栖息的生物被称为海底生物。
  • 干细胞疗法干细胞疗法是通过利用对干细胞进行体外分离、培养、定向诱导分化等,能够培养出一种全新的、正常的、更年轻的细胞、组织、器官等。通过特殊的移植技术移植到体内,代替那些正常
  • 余梦伦余梦伦(1936年11月-),籍贯浙江余姚,中国航天飞行力学、火箭弹道设计专家,中国科学院院士。他在火箭弹道设计中取得多项重要成果,是中国弹道战略火箭和运载火箭弹道设计的开创者及学
  • 吉美前列素吉美前列素是前列腺素E1的一种类似物,常用于治疗产科出血,也可与米非司酮一起用于24周内怀孕者堕胎。医学导航:遗传代谢缺陷代谢、k,c/g/r/p/y/i,f/h/s/l/o/e,a/u,n,mk,cgrp/y/
  • 约法《中华民国约法》是中华民国三年(1914年)5月1日由大总统袁世凯颁布的宪法,取代南京临时政府制定的中华民国临时约法。在当时又称作《民国三年约法》,简称《民三约法》。中国国民
  • 韩国放送公社韩国广播公司(朝鲜语:한국방송공사/韓國放送公社 Han-guk Bangsong Gongsa,英语:Korean Broadcasting System),通称韩国放送(英语:KBS),亦可称为韩国广播电视台,为大韩民国最早的公营电
  • 温彻斯特坐标:51°03′48″N 1°18′31″W / 51.0632°N 1.3085°W / 51.0632; -1.3085温切斯特(英语:Winchester)是英国南部的一座的城市,位于英格兰东南部的汉普郡,在南唐斯国家公园的西
  • 冯其庸冯其庸(1924年2月3日-2017年1月22日),名迟,字其庸,以字行,号宽堂,江苏无锡人。以研究《红楼梦》著名于世,中国红楼梦学会会长、中国汉画学会前会长、中华炎黄文化研究会副会长、中国
  • 新加坡国家发展部新加坡国家发展部(英语:Ministry of National Development (MND);马来语:Kementerian Pembangunan Nasional)是新加坡政府的一个下辖部门。它主要负责规划和指导土地利用、基础设
  • 齐皇后齐皇后,后秦文桓帝姚兴的第二任皇后。弘始十四年(412年)十月,她由昭仪册封为皇后,史书对她的记载非常少,不知道她的子女情况和去世时间。