VC维

✍ dations ◷ 2024-12-23 00:38:34 #维度,统计分类

在VC理论中,VC维(Vapnik-Chervonenkis Dimension,由Vladimir Vapnik与Alexey Chervonenkis提出)是对一个可学习分类函数空间的能力(复杂度,表示能力等)的衡量。它定义为算法能“打散”的点集的势的最大值。直观地,一个分类模型的能力与其复杂程度相关。例如,考虑一个高次多项式的分类模型:若函数值大于0则分类为正,反之则分类为负。高次多项式能够“摆动”的范围很大,所以能够很好地拟合给定的点集。当然因此,这样的模型也很可能会在其他符合原点集趋势的点集上分类错误。我们说这一多项式是高能力的。如果考虑一个简单的线性分类模型,就不一定能够很好地拟合给定的点集。

给定一集合族 H {\displaystyle H} 为如下的集合族:

H C := { h C | h H } {\displaystyle H\cap C:=\{h\cap C\vert h\in H\}}

H {\displaystyle H} 能打散 C {\displaystyle C} ,当且仅当 H C {\displaystyle H\cap C} 包含 C {\displaystyle C} 的所有子集,即

| H C | = 2 | C | {\displaystyle \vert H\cap C\vert =2^{\vert C\vert }}

H {\displaystyle H} 的VC维定义为能被 H {\displaystyle H} 打散的势最大的集合的势。

对一个参数记为 θ {\displaystyle \theta } 的分类模型 f {\displaystyle f} ,称模型 f {\displaystyle f} 能够打散一点集 X = { x 1 , x 2 , , x n } {\displaystyle X=\{x_{1},x_{2},\cdots ,x_{n}\}} ,当且仅当对任意标签集 Y { 1 , + 1 } n {\displaystyle Y\in \{-1,+1\}^{n}} 都存在参数 θ {\displaystyle \theta ^{*}} 使得 f θ {\displaystyle f_{\theta ^{*}}} ( X , Y ) {\displaystyle (X,Y)} 上分类完全正确。

模型 f {\displaystyle f} 的VC维定义为能被 f {\displaystyle f} 打散的势最大的点集的势,或等价地,满足存在 X {\displaystyle X} | X | = D {\displaystyle \vert X\vert =D} 使得 f {\displaystyle f} 能打散 X {\displaystyle X} 的最大的 D {\displaystyle D}

相关

  • 外耳炎外耳炎(Otitis externa)是耳道的炎症,常见的症状有耳部疼痛(英语:ear pain)、耳道肿胀,偶尔也会有听力减退的情形。若动到外耳(英语:outer ear),多半会感觉疼痛。一般来说外耳炎不太会
  • 茉莉酮酸茉莉酮酸,是一类帮助植物均匀生长发育的植物激素。茉莉酮酸包括茉莉酮酸及其酯,例如茉莉酮酸甲酯。如同哺乳动物体内的前列腺素,茉莉酮酸是由环戊酮和脂肪酸通过生物合成作用合
  • 埃尔温·薛定谔埃尔温·鲁道夫·约瑟夫·亚历山大·薛定谔(德语:Erwin Rudolf Josef Alexander Schrödinger,1887年8月12日-1961年1月4日),生于奥地利维也纳,是奥地利一位理论物理学家,量子力学的
  • 猪脚姜猪脚姜,又称猪脚姜醋或姜醋,是广东的一种食品,材料包括姜,甜醋,蛋及猪脚。产后妇女在家休养至少四十天,俗称坐月,藉休养生息,以补充流失养份。她们会吃猪脚姜以滋补强身。而在弥月宴
  • 口疮口腔溃疡,由于发病部位、局部症状的不同,用语又称口内炎、口疮、口舌疮、口破、口疳、口疡、嘴破、痱滋等,是指口腔内之唇、舌颊及上腭等软组织处的粘膜,发生单个或多个黄白色圆
  • 苏里南总统苏里南政府与政治 系列条目苏里南共和国总统 (荷兰语:President van de Republiek Suriname),是苏里南的国家元首、政府首脑及三军统帅。1975年独立时原为内阁制虚位元首,政府
  • 2019冠状病毒病墨西哥疫情2019冠状病毒病墨西哥疫情,介绍在2019冠状病毒病疫情中,在墨西哥发生的情况。2月28日,墨西哥确认了其前三起确诊案例。墨西哥城的一名35岁男子和一名59岁男子以及锡那罗亚州北
  • 六阶五边形镶嵌在几何学中,六阶五边形镶嵌是由五边形组成的双曲面正镶嵌图,每六个五边形共用一个顶点。在施莱夫利符号用{5,6}表示。六阶五形镶嵌即每个顶点皆为六个五边形的公共顶点,顶点周
  • 连胜 (运动)连胜是指在体育运动中,连续在至少一场赛事获得胜利。连胜可以是棒球、足球、篮球、曲棍球这类团队运动,或者是网球这类个人运动。在一个赛季中连胜便是指在该赛季的每场比赛都
  • 理查德·坎蒂隆理查德·坎蒂隆(法语:Richard Cantillon),或译康梯龙、坎蒂伦,(1680s – May 1734),爱尔兰裔法国经济学家。他著有《商业性质概论》()一书,被英国经济学者威廉姆·斯坦利·杰文斯评