C4.5算法

✍ dations ◷ 2025-04-03 17:29:14 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 第五代头孢菌素(法语:Cephalosporine、英语:Cephalosporin),又名先锋霉素,是一系列属于β内酰胺类的抗生素。与头霉素一并细分为头孢烯。头孢菌素化合物最初是于1948年,由意大利科学家Giu
  • 纳豆纳豆是日本常见的传统发酵食品,由黄豆通过Bacillus subtilis natto(枯草杆菌亚种之一)借由菌种发酵所释放的酵素转化蒸煮过黄豆的营养成分所制成的豆制品,气味浓烈,有黏性,不仅保
  • 波士顿-华盛顿城市带波士顿-华盛顿城市带(英语:BosWash / Bosnywash / Boshington / Boston–Washington corridor / Bos-Wash corridor),又称东北走廊(Northeast Corridor)或东北大都市圈(Northeast m
  • 维姆·文德斯恩斯特·威廉·“维姆”·文德斯(德语:Ernst Wilhelm "Wim" Wenders,1945年8月14日-),出生于德国杜塞尔多夫的电影导演、摄影师;曾荣获法国戛纳影展及德国柏林影展最佳影片导演;是德
  • 脑内回馈系统犒赏系统(英语:reward system)是一组神经结构,旨在维护动机显著性(英语:incentive salience)(也就是动机、需求、喜好等)、联想学习(主要依靠增强和古典制约)和正面情感(英语:Positive af
  • 查尔斯·泰勒 (哲学家)查尔斯·马格雷夫·泰勒(法语:Charles Margrave Taylor,1931年11月5日-),加拿大魁北克省天主教哲学家,麦吉尔大学荣誉退休教授,横纵当代英美哲学和欧陆哲学界。主要涉及领域:语言哲
  • 美国例外论美国例外论(英语:American Exceptionalism),又译美国卓异主义、美国例外主义、美式例外主义,一种理论与意识形态,认为美利坚合众国是个独特的国家,与其他国家完全不同。为亚历西斯
  • 日尼亚克 (洛特省)日尼亚克(法语:Gignac)是法国洛特省的一个市镇,位于该省北部,苏亚克以北,和科雷兹省及多尔多涅省接壤,属于古尔东区。该市镇总面积40.66平方公里,2009年时的人口为628人。日尼亚克人
  • 明晓溪明晓溪,是中国网络女作家。作品有《同漾》、《烈火如歌》、《泡沫之夏》、《旋风少女》、《会有天使替我爱你》等。多部作品改编成漫画、偶像剧。电视剧
  • 1924年冬季奥林匹克运动会匈牙利代表团1924年冬季奥林匹克运动会匈牙利代表团参加了在法国的霞慕尼举办的1924年冬奥会。奥地利 · 比利时 · 加拿大 · 捷克斯洛伐克 · 芬兰 · 法国 · 英国 · 匈牙利