VC维

✍ dations ◷ 2025-09-13 10:20:00 #维度,统计分类

在VC理论中,VC维(Vapnik-Chervonenkis Dimension,由Vladimir Vapnik与Alexey Chervonenkis提出)是对一个可学习分类函数空间的能力(复杂度,表示能力等)的衡量。它定义为算法能“打散”的点集的势的最大值。直观地,一个分类模型的能力与其复杂程度相关。例如,考虑一个高次多项式的分类模型:若函数值大于0则分类为正,反之则分类为负。高次多项式能够“摆动”的范围很大,所以能够很好地拟合给定的点集。当然因此,这样的模型也很可能会在其他符合原点集趋势的点集上分类错误。我们说这一多项式是高能力的。如果考虑一个简单的线性分类模型,就不一定能够很好地拟合给定的点集。

给定一集合族 H {\displaystyle H} 为如下的集合族:

H C := { h C | h H } {\displaystyle H\cap C:=\{h\cap C\vert h\in H\}}

H {\displaystyle H} 能打散 C {\displaystyle C} ,当且仅当 H C {\displaystyle H\cap C} 包含 C {\displaystyle C} 的所有子集,即

| H C | = 2 | C | {\displaystyle \vert H\cap C\vert =2^{\vert C\vert }}

H {\displaystyle H} 的VC维定义为能被 H {\displaystyle H} 打散的势最大的集合的势。

对一个参数记为 θ {\displaystyle \theta } 的分类模型 f {\displaystyle f} ,称模型 f {\displaystyle f} 能够打散一点集 X = { x 1 , x 2 , , x n } {\displaystyle X=\{x_{1},x_{2},\cdots ,x_{n}\}} ,当且仅当对任意标签集 Y { 1 , + 1 } n {\displaystyle Y\in \{-1,+1\}^{n}} 都存在参数 θ {\displaystyle \theta ^{*}} 使得 f θ {\displaystyle f_{\theta ^{*}}} ( X , Y ) {\displaystyle (X,Y)} 上分类完全正确。

模型 f {\displaystyle f} 的VC维定义为能被 f {\displaystyle f} 打散的势最大的点集的势,或等价地,满足存在 X {\displaystyle X} | X | = D {\displaystyle \vert X\vert =D} 使得 f {\displaystyle f} 能打散 X {\displaystyle X} 的最大的 D {\displaystyle D}

相关

  • 肾素-血管紧张素系统肾素-血管紧张素系统(英语:renin-angiotensin system,简称为RAS)或肾素-血管紧张素-醛固酮系统(renin-angiotensin-aldosterone system, RAAS)是一个激素系统。当大量失血或血压下
  • 增殖性材料增殖性材料是指本身在热中子的作用下不易发生核裂变,但是通过中子俘获和接下来的核反应产生裂变物质的材料。可以通过在核反应堆中接受辐射转换为裂变物质的天然增殖性材料有
  • 东京女子医科大学东京女子医科大学(英语:Tokyo Women's Medical University;東京女子医科大学〔東京女子醫科大學〕/とうきょうじょしいかだいがく Tokyo Joshi ika Daigaku)是日本的一家私立大
  • 法国国家橄榄球队法国国家橄榄球队代表法国参加橄榄球国际赛。和英格兰、苏格兰、爱尔兰、威尔士及意大利等队伍在每年的六国锦标赛争夺冠军。法国共夺得六国锦标赛冠军16次,8次和他国共享冠
  • 弗兰克·沃生·戴森弗兰克·沃生·戴森爵士(英语:Frank Watson Dyson,1868年1月8日-1939年5月25日),KBE、皇家学会会员、爱丁堡皇家学会院士,英国天文学家、皇家天文学家。他引入了英格兰格林威治时间
  • 农业地理学农业地理学是研究人类农业生产地域的差异及其规律的学科,是经济地理学的一个分支学科,也是农业科学的一个研究领域。农业与各个不同地域的自然条件、社会经济条件、人口密度和
  • 分段生死分段生死(或作分断生死),佛教术语,指尚未实证解脱道极果阿罗汉果、辟支佛果的一切有情众生,包括凡夫及已证解脱初果乃至三果的佛法解脱道修行者,以及七地满心以前的各阶位修行佛
  • 蓝山山地蓝山山脉(英语:Blue Mountains)是美国西部的一个山脉,位于俄勒冈州东北部,并延伸到华盛顿州东南,面积约为10,500平方千米。坐标:45°30′00″N 118°00′00″W / 45.50000°N 118.0
  • 威廉·赫斯特威廉·蓝道夫·赫斯特(William Randolph Hearst,1863年4月29日-1951年8月14日)美国报业大王、企业家,赫斯特国际集团(Hearst Corporation)的创始人。赫斯特是一位在新闻史上饱受争
  • 鲁中南山地丘陵区山东丘陵是山东省中部东部低山丘陵的总称,在地形上分为三部分:鲁中南低山丘陵,海拔在500至1000米;胶东低山丘陵,海拔在200至500米;胶莱谷地,海拔在20米左右。山东丘陵主要的山岭有: