统计学习理论

✍ dations ◷ 2025-10-13 12:57:28 #统计学习理论
统计学习理论(英语:Statistical learning theory),一种机器学习的架构,根据统计学与泛函分析(Functional Analysis)而建立。统计学习理论基于资料(data),找出预测性函数,之后解决问题。支持向量机(Support Vector Machine)的理论基础来自于统计学习理论。令 X {displaystyle X} 为所有可能的输入组成的向量空间, Y {displaystyle Y} 为所有可能的输出组成的向量空间。统计学习理论认为,积空间 Z = X × Y {displaystyle Z=Xtimes Y} 上存在某个未知的概率分布 p ( z ) = p ( x → , y ) {displaystyle p(z)=p({vec {x}},y)} 。训练集由这个概率分布中的 n {displaystyle n} 个样例构成,并用 S = { ( x → 1 , y 1 ) , … , ( x → n , y n ) } = { z → 1 , … , z → n } {displaystyle S={({vec {x}}_{1},y_{1}),dots ,({vec {x}}_{n},y_{n})}={{vec {z}}_{1},dots ,{vec {z}}_{n}}} 表示。每个 x → i {displaystyle {vec {x}}_{i}} 都是训练数据的一个输入向量, 而 y i {displaystyle y_{i}} 则是对应的输出向量。损失函数的选择是机器学习算法所选的函数 f S {displaystyle f_{S}} 中的决定性因素。 损失函数也影响着算法的收敛速率。损失函数的凸性也十分重要。根据问题是回归问题还是分类问题,我们可以使用不同的损失函数。回归问题中最常用的损失函数是平方损失函数(也被称为L2-范数)。类似的损失函数也被用在普通最小二乘回归。其形式是:另一个常见的损失函数是绝对值范数(L1-范数):某种程度上说0-1指示函数是分类问题中最自然的损失函数。它在预测结果与真实结果相同时取0,相异时取1。对于 Y = { − 1 , 1 } {displaystyle Y={-1,1}} 的二分类问题,这可以表示为:其中 θ {displaystyle theta } 为单位阶跃函数。机器学习的一大常见问题是过拟合。由于机器学习是一个预测问题,其目标并不是找到一个与(之前观测到的)数据最拟合的的函数,而是寻找一个能对未来的输入作出最精确预测的函数。经验风险最小化有过拟合的风险:找到的函数完美地匹配现有数据但并不能很好地预测未来的输出。过拟合的常见表现是不稳定的解:训练数据的一个小的扰动会导致学到的函数的巨大波动。可以证明,如果解的稳定性可以得到保证,那么其可推广性和一致性也同样能得到保证。 正则化可以解决过拟合的问题并增加解的稳定性。正则化可以通过限制假设空间 H {displaystyle {mathcal {H}}} 来完成。一个常见的例子是把 H {displaystyle {mathcal {H}}} 限制为线性函数:这可以被看成是把问题简化为标准设计的线性回归。 H {displaystyle {mathcal {H}}} 也可以被限制为 p {displaystyle p} 次多项式,指数函数,或L1上的有界函数。对假设空间的限制能防止过拟合的原因是,潜在的函数的形式得到了限制,因此防止了那些能给出任意接近于0的经验风险的复杂函数。一个正则化的样例是吉洪诺夫正则化,即最小化如下损失函数其中正则化参数 γ {displaystyle gamma } 为一个固定的正参数。吉洪诺夫正则化保证了解的存在性、唯一性和稳定性。

相关

  • 血氧饱和度血氧饱和度是指血中氧饱和血红蛋白相对于总血红蛋白(不饱和+饱和)的b比例。 人体需要并调节血液中氧气的非常精确和特定的平衡。 人体的正常动脉血氧饱和度为95-100%。 如果该
  • 呋喃西林呋喃西林(Nitrofural、Nitrofurazone或Furacilin,商品名Furacin)是一种用做抗菌药的杀菌性化合物,大多数商品为膏状。呋喃西林对革兰阳性、阴性菌均有抑制作用。纯净物为透明鹅
  • 贾斯珀县杰斯帕县(Jasper County, Georgia)是位于美国乔治亚州中部的一个县。面积1,055平方公里。根据美国2000年人口普查,共有人口11,426人。县治最大城市为蒙蒂塞洛 (Monticello)。成
  • 世袭世袭君主制(英语:Hereditary monarchy),是君主制政体的最常见形式。世界上大多数现存及曾经存在的君主制国家采用这种政体。与其相对的制度是选举君主制。在世袭君主制制度中,所
  • 雅利安人庞提克大草原高加索地区东亚东欧南欧庞提克大草原北方/东方大草原欧洲地区南亚地区西伯利亚大草原欧洲高加索地区印度印度-雅利安民族伊朗民族欧洲民族东亚印欧民族欧洲民族
  • 三藏法师三藏法师(英语:tripiṭaka Master;梵语:tripiṭaka-ācārya;巴利语:tipiṭaka-ācariya;直译为“三藏-阿阇梨”)是一种敬称,指精通佛教圣典“经、律、论”三藏并诵持不忘的佛教僧侣
  • 明史《明史》是二十四史中的最后一部,是一部纪传体的史书。清朝明史馆官修,张廷玉等主撰,全书共三百三十二卷,计本纪二十四卷、志七十五卷、表十三卷、列传二百二十卷;记明代史事,起自
  • 鬼魂鬼,又称鬼魂,某些文化习俗或宗教信仰的人认为鬼是生物死亡后遗留下的灵魂。在其他语言的翻译上,中文的“鬼”最常被翻译成英语的“Ghost”,日本则称之为“幽灵”,马来语则称之为
  • 阿蒙涅姆尼苏尼斐卡拉-阿蒙涅姆尼苏(英语:Neferkare Amenemnisu)是古埃及第二十一王朝第二位法老。阿蒙涅姆尼苏的名字在一个金帽子出现,“尼斐卡拉”是阿蒙涅姆尼苏的王名,阿蒙涅姆尼苏的名
  • 干走电影《干走电影》(Steal This Film)是一个于2006年开始的系列电影计划,电影内容是关于反抗知识产权运动的纪录片,并且以BitTorrent点对点技术协定散布电影,而非一般电影在戏院放映。