统计学习理论

✍ dations ◷ 2025-06-07 14:11:18 #统计学习理论
统计学习理论(英语:Statistical learning theory),一种机器学习的架构,根据统计学与泛函分析(Functional Analysis)而建立。统计学习理论基于资料(data),找出预测性函数,之后解决问题。支持向量机(Support Vector Machine)的理论基础来自于统计学习理论。令 X {displaystyle X} 为所有可能的输入组成的向量空间, Y {displaystyle Y} 为所有可能的输出组成的向量空间。统计学习理论认为,积空间 Z = X × Y {displaystyle Z=Xtimes Y} 上存在某个未知的概率分布 p ( z ) = p ( x → , y ) {displaystyle p(z)=p({vec {x}},y)} 。训练集由这个概率分布中的 n {displaystyle n} 个样例构成,并用 S = { ( x → 1 , y 1 ) , … , ( x → n , y n ) } = { z → 1 , … , z → n } {displaystyle S={({vec {x}}_{1},y_{1}),dots ,({vec {x}}_{n},y_{n})}={{vec {z}}_{1},dots ,{vec {z}}_{n}}} 表示。每个 x → i {displaystyle {vec {x}}_{i}} 都是训练数据的一个输入向量, 而 y i {displaystyle y_{i}} 则是对应的输出向量。损失函数的选择是机器学习算法所选的函数 f S {displaystyle f_{S}} 中的决定性因素。 损失函数也影响着算法的收敛速率。损失函数的凸性也十分重要。根据问题是回归问题还是分类问题,我们可以使用不同的损失函数。回归问题中最常用的损失函数是平方损失函数(也被称为L2-范数)。类似的损失函数也被用在普通最小二乘回归。其形式是:另一个常见的损失函数是绝对值范数(L1-范数):某种程度上说0-1指示函数是分类问题中最自然的损失函数。它在预测结果与真实结果相同时取0,相异时取1。对于 Y = { − 1 , 1 } {displaystyle Y={-1,1}} 的二分类问题,这可以表示为:其中 θ {displaystyle theta } 为单位阶跃函数。机器学习的一大常见问题是过拟合。由于机器学习是一个预测问题,其目标并不是找到一个与(之前观测到的)数据最拟合的的函数,而是寻找一个能对未来的输入作出最精确预测的函数。经验风险最小化有过拟合的风险:找到的函数完美地匹配现有数据但并不能很好地预测未来的输出。过拟合的常见表现是不稳定的解:训练数据的一个小的扰动会导致学到的函数的巨大波动。可以证明,如果解的稳定性可以得到保证,那么其可推广性和一致性也同样能得到保证。 正则化可以解决过拟合的问题并增加解的稳定性。正则化可以通过限制假设空间 H {displaystyle {mathcal {H}}} 来完成。一个常见的例子是把 H {displaystyle {mathcal {H}}} 限制为线性函数:这可以被看成是把问题简化为标准设计的线性回归。 H {displaystyle {mathcal {H}}} 也可以被限制为 p {displaystyle p} 次多项式,指数函数,或L1上的有界函数。对假设空间的限制能防止过拟合的原因是,潜在的函数的形式得到了限制,因此防止了那些能给出任意接近于0的经验风险的复杂函数。一个正则化的样例是吉洪诺夫正则化,即最小化如下损失函数其中正则化参数 γ {displaystyle gamma } 为一个固定的正参数。吉洪诺夫正则化保证了解的存在性、唯一性和稳定性。

相关

  • 血氧饱和度血氧饱和度是指血中氧饱和血红蛋白相对于总血红蛋白(不饱和+饱和)的b比例。 人体需要并调节血液中氧气的非常精确和特定的平衡。 人体的正常动脉血氧饱和度为95-100%。 如果该
  • 今生物学今生物学,又名现生生物学,是生物学的一个重要分支。它与古生物学相反,研究的是现存生物。它和古生物学的分界线并不固定。如当有拉撒路物种出现时,一个物种全部灭绝的分类就会进
  • 巴门尼德爱利亚的巴门尼德(Παρμενίδης)(约前515-前445),公元前5世纪的古希腊哲学家,最重要的“前苏格拉底”哲学家之一,是埃利亚学派的一员。生于埃利亚(Ἐλέα,位于现在意大利南
  • 鼻软骨鼻软骨的结构带有支撑鼻子的功能。鼻软骨包含:
  • 搜索引擎优化搜索引擎优化(英语:search engine optimization,缩写为SEO),是一种透过了解搜索引擎的运作规则来调整网站,以及提高目的网站在有关搜索引擎内排名的方式。由于不少研究发现,搜索引
  • 东非大裂谷东非大裂谷(Great Rift Valley),位于非洲东部,是一个在3500万年前由非洲板块的地壳运动所形成的地理奇观,纵贯东非的大裂谷是世界上最大的断裂带,属于生长边界。其所形成的生态、
  • 粉尘爆炸粉尘燃烧(英语:Dust explosion)指悬浮在封闭或局限空间中,或户外环境的可燃粉尘颗粒快速燃烧,如果在封闭环境中,可燃颗粒或局限在大气或是氧分子等其他合适的气体介质中分散浓度足
  • 生态稳定性生态稳定性是指一个包括生态再生(英语:regeneration (ecology))及生态恢复能力(英语:Ecological resilience)(很快的恢复到原有状态),而且可以持续维持的稳定状态。其准确的定义会依
  • 马萨诸塞州马萨诸塞州(英语:Commonwealth of Massachusetts),简称麻省、麻州,正式名称为马萨诸塞联邦,是位于美国东北部的州,为美国独立时最初的十三州之一,也是新英格兰六州里人口最密集的一
  • 铜人铜仁市是中华人民共和国贵州省下辖的地级市,位于贵州省东北部。市境南邻黔东南州,西接遵义市,北与重庆市毗邻,东与湖南省湘西州、怀化市相接。地处黔、湘、渝三省市交界之武陵山