随机森林

✍ dations ◷ 2025-09-13 10:11:36 #随机森林

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

这个术语是1995年由贝尔实验室的何天琴(英语:Tin Kam Ho)所提出的随机决策森林(random decision forests)而来的。

然后Leo Breiman(英语:Leo Breiman)和Adele Cutler(英语:Adele Cutler)发展出推论出随机森林的算法。而"Random Forests"是他们的商标。

这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method"以建造决策树的集合。

随机森林的引入最初是由华裔美国人何天琴(英语:Tin Kam Ho)于1995年先提出的。然后随机森林由Leo Breiman于2001年在一篇论文中提出的。这篇文章描述了一种结合随机节点优化和bagging,利用类CART过程构建不相关树的森林的方法。此外,本文还结合了一些已知的、新颖的、构成了现代随机森林实践的基础成分,特别是

决策树是机器学习的常用方法。 Hastie等说:“树学习是如今最能满足于数据挖掘的方法,因为它在特征值的缩放和其他各种转换下保持不变,对无关特征是稳健的,而且能生成可被检查的模型。然而,它通常并不准确。”

特别的,生长很深的树容易学习到高度不规则的模式,即过学习,在训练集上具有低偏差和高变异数的特点。随机森林是平均多个深决策树以降低变异数的一种方法,其中,决策树是在一个数据集上的不同部分进行训练的。这是以偏差的小幅增加和一些可解释性的丧失为代价的,但是在最终的模型中通常会大大提高性能。

随机森林训练算法把bagging的一般技术应用到树学习中。给定训练集X = x1, ..., xn和目标Y = y1, ..., yn,bagging方法重复(次)从训练集中有放回地采样,然后在这些样本上训练树模型:

在训练结束之后,对未知样本x的预测可以通过对x上所有单个回归树的预测求平均来实现:

或者在分类任务中选择多数投票的类别。

这种bagging方法在不增加偏置的情况下降低了方差,从而带来了更好的性能。这意味着,即使单个树模型的预测对训练集的噪声非常敏感,但对于多个树模型,只要这些树并不相关,这种情况就不会出现。简单地在同一个数据集上训练多个树模型会产生强相关的树模型(甚至是完全相同的树模型)。Bootstrap抽样是一种通过产生不同训练集从而降低树模型之间关联性的方法。

此外,x'上所有单个回归树的预测的标准差可以作为预测的不确定性的估计:

样本或者树的数量B是一个自由参数。通常使用几百到几千棵树,这取决于训练集的大小和性质。使用交叉验证,或者透过观察out-of-bag误差(那些不包含xᵢ的抽样集合在样本xᵢ的平均预测误差),可以找到最优的B值。当一些树训练到一定程度之后,训练集和测试集的误差开始趋于平稳。

上面的过程描述了树的原始的 bagging 算法。随机森林与这个通用的方案只有一点不同:它使用一种改进的学习算法,在学习过程中的每次候选分裂中选择特征的随机子集。这个过程有时又被称为“特征 bagging”。这样做的原因是 bootstrap 抽样导致的树的相关性:如果有一些特征预测目标值的能力很强,那么这些特征就会被许多树所选择,这样就会导致树的强相关性。何天琴(英语:Tin Kam Ho)分析了不同条件下 bagging 和随机子空间投影对精度提高的影响。

典型地,对于一个包含 p 个特征的分类问题,可以在每次划分时使用 p {displaystyle {sqrt {p}}} ),即极限树。与普通的随机森林相同,他们都是单个树的集成,但也有不同:首先,每棵树都使用整个学习样本进行了训练,其次,自上而下的划分是随机的。它并不计算每个特征的最优划分点(例如,基于信息熵或者基尼不纯度),而是随机选择划分点。该值是从特征经验范围内均匀随机选取的。在所有随机的划分点中,选择其中分数最高的作为结点的划分点。与普通的随机森林相似,可以指定每个节点要选择的特征的个数。该参数的默认值,对于分类问题,是 n {displaystyle {sqrt {n}}} 给出。

这种度量方法也有一些缺陷。对于包含不同取值个数的类别特征,随机森林更偏向于那些取值个数较多的特征,partial permutations、growing unbiased trees可以用来解决这个问题。如果数据包含一些相互关联的特征组,那么更小的组更容易被选择。

Lin和Jeon在2002年指出了随机森林算法和K-近邻算法(k-NN)的关系。 事实证明,这两种算法都可以被看作是所谓的“加权邻居的方案”。这些在数据集 { ( x i , y i ) } i = 1 n {displaystyle {(x_{i},y_{i})}_{i=1}^{n}} 上训练的模型通过查看一个点的邻居来计算一个新点x'的预测值 y ^ {displaystyle {hat {y}}} ,并且使用权重函数W对这些邻居进行加权:

其中, W ( x i , x ) {displaystyle W(x_{i},x')} 是第i个点在同一棵树中相对于新的数据点x'的非负权重。对于任一特定的点x', x i {displaystyle x_{i}} 的权重的和必须为1。权重函数设定如下:

因为森林平均了m棵树的预测,且这些树具有独立的权重函数 W j {displaystyle W_{j}} ,故森林的预测值是:

上式表明了整个森林也采用了加权的邻居方案,其中的权重是各个树的平均。在这里,x'的邻居是那些在任一树中属于同一个叶节点的点 x i {displaystyle x_{i}} 。只要 x i {displaystyle x_{i}} x'在某棵树中属于同一个叶节点, x i {displaystyle x_{i}} 就是x'的邻居。

作为构建的一部分,随机森林预测器自然会导致观测值之间的不相似性度量。还可以定义未标记数据之间的随机森林差异度量:其思想是构造一个随机森林预测器,将“观测”数据与适当生成的合成数据区分开来。 观察到的数据是原始的未标记数据,合成数据是从参考分布中提取的。随机森林的不相似性度量之所以吸引人,是因为它能很好地处理混合变量类型,对输入变量的单调变换是不敏感的,而且在存在异常值的情况下度量结果依然可靠。由于其固有变量的选择,随机森林不相似性很容易处理大量的半连续变量。

根据下列算法而建造每棵树:

随机森林的优点有:

相关

  • 硒化氢硒化氢是化学式为H2Se的无机化合物。在标准条件下,硒化氢是一种无色,易燃气体。硒化合物中毒性最强,暴露限值为0.05ppm。这种化合物具有刺激像腐烂辣根气味,较高浓度下有臭鸡蛋
  • 大同大同市,简称同、大,古称平城、云中,是中华人民共和国山西省下辖的地级市,经国务院批准的较大的市,中国九大古都之一,是山西省第二大城市,位于山西省北部,晋冀蒙三省区交界。市境西接
  • 相似数学上,相似指两个图形的形状完全相同。严格来说,若存在两个点的集,其中一个能透过放大缩小、平移或旋转等方式变成另一个,就说它们相似。两个图形相似,可以以一个“~”符号连接它
  • 脑白质切除术脑白质切除术(lobotomy)是一种神经外科手术,包括切除前额叶皮质的连接组织。脑白质切除术主要于1930年代到1950年代用来医治一些精神病,这也是世界上第一种精神外科手术。该技术
  • 马克·阿伦森马克·阿伦森(英文:Marc Aaronson,1950年8月24日-1987年4月30日),美国天文学家。阿伦森生于加州洛杉矶。1972年于加州理工学院获得学士学位,1977年在哈佛大学以星系近红外线孔径测
  • 斯特凡·埃塞尔斯特凡·弗雷德里克·埃塞尔(法语:Stéphane Frédéric Hessel,1917年10月20日-2013年2月27日),生于德国柏林,法国外交官、大使、作家,法国二次大战期间反抗运动成员,德国纳粹集中营
  • 蒲石河蒲石河,位于中华人民共和国辽宁省丹东市宽甸满族自治县的一条河流,是鸭绿江右岸支流,发源于大川头镇以北四方顶山西南麓,蜿蜒向南流,经龙头村、红光村、圈场子村、石湖沟乡老道排
  • 前167年
  • 纳森·贝克纳森·卢克·贝克(英语:Nathan Luke Baker,1991年4月23日-)是一名英格兰职业足球运动员,司职后卫,现时效力英冠俱乐部布里斯托尔城。贝克于2004年当时年仅13岁已加盟阿斯顿维拉,在队中青训系统成长,于2007年首次代表U18青年队上场。2007/08年赛季贝克伙拍西伦·克拉克(Ciaran Clark)成为球队后防中流砥柱,在英格兰足球青年超级联赛先在B组压倒热刺取得分组冠军,半决赛1-0淘汰阿森纳,再在决赛2-0击败当年英格兰足协青年杯冠军曼城,赢得冠军锦标。贝克当季为U18青年
  • 南65线请对照以下删除理由判断本页是否具备执行快速删除的理据:本页可能符合快速删除的标准而需删除,理由:请勿移除本模板。如有异议,请在本模板下方加入{{hang on|理由}},并尽快到讨论页阐明理据。其他编者若认为本页明显不符合快速删除的标准,或者您已修正存在的问题,可去除此模板。