VC维

✍ dations ◷ 2025-10-25 20:42:42 #维度,统计分类

在VC理论中,VC维(Vapnik-Chervonenkis Dimension,由Vladimir Vapnik与Alexey Chervonenkis提出)是对一个可学习分类函数空间的能力(复杂度,表示能力等)的衡量。它定义为算法能“打散”的点集的势的最大值。直观地,一个分类模型的能力与其复杂程度相关。例如,考虑一个高次多项式的分类模型:若函数值大于0则分类为正,反之则分类为负。高次多项式能够“摆动”的范围很大,所以能够很好地拟合给定的点集。当然因此,这样的模型也很可能会在其他符合原点集趋势的点集上分类错误。我们说这一多项式是高能力的。如果考虑一个简单的线性分类模型,就不一定能够很好地拟合给定的点集。

给定一集合族 H {\displaystyle H} 为如下的集合族:

H C := { h C | h H } {\displaystyle H\cap C:=\{h\cap C\vert h\in H\}}

H {\displaystyle H} 能打散 C {\displaystyle C} ,当且仅当 H C {\displaystyle H\cap C} 包含 C {\displaystyle C} 的所有子集,即

| H C | = 2 | C | {\displaystyle \vert H\cap C\vert =2^{\vert C\vert }}

H {\displaystyle H} 的VC维定义为能被 H {\displaystyle H} 打散的势最大的集合的势。

对一个参数记为 θ {\displaystyle \theta } 的分类模型 f {\displaystyle f} ,称模型 f {\displaystyle f} 能够打散一点集 X = { x 1 , x 2 , , x n } {\displaystyle X=\{x_{1},x_{2},\cdots ,x_{n}\}} ,当且仅当对任意标签集 Y { 1 , + 1 } n {\displaystyle Y\in \{-1,+1\}^{n}} 都存在参数 θ {\displaystyle \theta ^{*}} 使得 f θ {\displaystyle f_{\theta ^{*}}} ( X , Y ) {\displaystyle (X,Y)} 上分类完全正确。

模型 f {\displaystyle f} 的VC维定义为能被 f {\displaystyle f} 打散的势最大的点集的势,或等价地,满足存在 X {\displaystyle X} | X | = D {\displaystyle \vert X\vert =D} 使得 f {\displaystyle f} 能打散 X {\displaystyle X} 的最大的 D {\displaystyle D}

相关

  • 感受器感受器(英语:Sensory receptor)也译作感觉接受器,是机体感受刺激的装置。听觉系统/听觉
  • 中华民国国家标准中华民国国家标准(英语:National Standards of the Republic of China,缩写CNS)是中华民国实施的国家标准,旧名中国国家标准(英语:Chinese National Standards,缩写CNS),1935年由经济
  • 巴布尔查希尔丁·穆罕默德·巴布尔(印地语:ज़हिर उद-दिन मुहम्मद बाबर;乌尔都语:ظہیر الدین محمد بابر‎‎;波斯语:ظهیرالدین محمد
  • 季诺季诺(西班牙语:Quino,本名Joaquín Salvador Lavado,1932年7月17日-),生于门多萨,阿根廷漫画家。他从1964年到1973年连载的漫画《娃娃看天下》(Mafalda),风靡了拉丁美洲及欧洲多个国家
  • 智冠科技智冠科技股份有限公司(英文:Soft-World International Corporation),简称智冠科技,成立于1983年7月15日,为台湾一家的电脑游戏公司。在台湾为盗版兴盛时趁乱而起,早期出售国外单机
  • DCCP数据拥塞控制协议(英语:Datagram Congestion Control Protocol,缩写为 DCCP)是由(互联网工程工作小组IETF)提出一个针对传输层中UDP的新传输的协议而发展出来,用来传输实时业务。它
  • 清史讲义《清史讲义》,著名历史学家孟森的代表作之一。本书是孟森在1930年代在北京大学历史系授课时的讲义,后由其弟子商鸿逵整理,中华书局1981年出版,但有删节。中华书局2006年再版的版
  • 弧是一条平面曲线,它是圆上两点间的一段,包含两个端点。连接弧的两个端点之间的线段被命名为弦。若圆心位于弧与弦连接成的封闭图形之内,这段弧称为优弧。若圆心位于弧与弦连接
  • 联合防御M42冲锋枪高标枪械公司(英语:High Standard Manufacturing Company)联合防御供应公司联合防御M42冲锋枪(英语:United Defense M42;有时也被生产商称为“马林冲锋枪”)是一款在二战时期由美国
  • 羽扇豆属羽扇豆属(学名:)又称鲁冰花,是豆科中的一个属,主要分布于北美洲西部、南美洲、地中海地区以及非洲。这类植物大多为多年生草本植物,高约0.3到1.5米;另外也有少数为一年生植物,且有些