半监督学习

✍ dations ◷ 2025-09-08 02:12:45 #半监督学习

半监督学习(英语:Semi-supervised learning)是机器学习的一个分支,它在训练时使用了少量的有标签数据(Labeled data)和大量的无标签数据(Unlabeled data)。半监督学习介于无监督学习(训练数据全部无标签)和有监督学习(训练数据全部有标签)之间。半监督学习旨在缓解训练数据中有标签数据有限的问题。

无监督学习适用的的问题往往有着大量的无标签样本,同时获得有标签样本成本较高。部分其它机器学习分支有着相同动机,但是遵从不同的假设和方法,例如主动学习(英语:Active_learning_(machine_learning))和弱监督学习。将无标签样本和少量有标签样本同时使用时,会对学习的准确性产生极大改善。为特定问题获得有标签的数据通常需要熟练工(例如转录音频片段)或进行物理实验(例如确定蛋白质的三维结构,或者确定特定地点是否有油气)。由此,获得有标签样本的成本往往较高,获取大型的、完全标注的样本集是不可行的;同时,获取无标签的样本成本往往相对较低。此时,半监督学习具有较大的使用价值。半监督学习在机器学习和人类学习的建模方面也具有理论价值。

正式的来说,半监督学习假设有 l {displaystyle l} 个独立同分布的样本 x 1 , , x l X {displaystyle x_{1},dots ,x_{l}in X} 及对应的标签 y 1 , , y l Y {displaystyle y_{1},dots ,y_{l}in Y} ,和 u {displaystyle u} 个无标签的样本 x l + 1 , , x l + u X {displaystyle x_{l+1},dots ,x_{l+u}in X} 。半监督学习结合这些样本来获得相比于放弃无标签样本进行有监督学习或放弃有标签样本进行无监督学习更好的分类性能。

半监督学习可以是推断学习(英语:Transduction_(machine_learning))或归纳学习。推断学习的目的是推断给定无标签样本 x l + 1 , , x l + u {displaystyle x_{l+1},dots ,x_{l+u}} 的正确标签;归纳学习的目的是推断 X {displaystyle X} Y {displaystyle Y} 的正确映射。

直观地说,学习问题可以看成一次考试,有标签样本是为了帮助学习,由老师解答的样题。推断学习中,未解决的问题是考试题目;归纳学习中,它们是会构成考试的练习题。

对整个输入空间进行推断学习没有必要(依据Vapnik准则,也是不够谨慎的)。然而在实践中,为推断学习和归纳学习设计的算法通常交替使用。

为了充分利用无标签数据,数据分布必须有某种潜在的规律。以下是半监督学习可能用到的假设:

“相近的数据点往往更可能有相同的标签。”这也是有监督学习中的一般假设,该假设同时对几何学上的简单决策边界有所偏好。由于很少有点相互接近但属于不同的类别,因此半监督学习的平滑性假设还产生了对低密度区域的决策边界的偏好。

“数据倾向形成离散的集群,在同一个集群中的数据点往往更可能由相同的标签(尽管具有相同标签的数据点可能分散在多个集群中)。”这是平滑性假设的特例,产生了带有聚类算法的特征学习。

“数据大致位于比输入空间维度更低的低维流形上。”在这种情况下,同时使用有标签和无标签的数据学习流形可以避免维数灾难。学习过程可以使用在流形上定义的距离和密度。

当高维数据由一些难以直接建模、仅有少数几个自由度的过程生成时,流形假设很实用。例如,人的声音由若干声带褶皱(Vocal folds)控制、面部肌肉由几个肌肉控制。此时,在问题的生成空间中考虑距离和光滑性,比在所有可能的声波或图像中考虑问题更好。

启发式的自训练方法(self-training,也称自学习(slef-learning)或自标记(self-labeling))是历史上最古老的半监督学习方法,其应用实例起源于20世纪60年代。

推断学习的框架是由弗拉基米尔·瓦普尼克于20世纪70年代正式提出,对使用生成模型的归纳学习的兴趣也起源于同一时期。1995年,Ratsaby和Venkatesh证明了高斯混合模型半监督学习概率近似正确学习(英语:Probably_approximately_correct_learning)(Probably approximately correct learning,PAC Learning)的边界。

半监督学习近期的流行是因为在实践中,大量的应用可以获得无标签数据(例如网页中的文本、蛋白质序列或图片)。

相关

  • 迈克尔·霍顿迈克尔·霍顿(英语:Michael Houghton,),英国生物化学家,参与开发丙型肝炎测试。霍顿1972年获东英吉利大学学士学位,并于1977年获伦敦大学国王学院生物学博士学位。然后,他在白金汉郡
  • 高阳县高阳县是河北省保定市下辖的一个县。县政府驻高阳镇西大街2号。西汉置高阳县,属幽州刺史部涿郡;东汉改属河间国;西晋为高阳国都;北魏、北齐均为瀛州高阳郡附郭县;隋属河间郡;唐属
  • 江承峰江承峰(1988年10月14日-),台湾棒球选手,因学生时期常挂帐吃鸡排解馋,故得到“鸡排”外号,于2012年季末选秀会中以第四轮第15顺位为统一7-ELEVEn狮选中,目前效力于统一7-ELEVEn狮,守备
  • 颜元 (画家)颜元(1860年-1934年),字纯生,晚号半聋居士,江苏苏州人,中国画家。幼年时父母双亡,由外祖母抚育,十余岁至上海习商。性嗜绘画,师事任伯年,画人物佛像。因左耳失聪,遂以半聋自号。有子颜文
  • 洪堡圈洪堡圈(德语:Humboldt-Ring)是德国数所自然科学研究所和自然类博物馆共同创建的科研联合体,成立于2009年9月24日。为纪念普鲁士教育改革者及语言学家威廉·冯·洪堡和他的弟弟自
  • 钟士模钟士模(1911年7月8日-1971年5月11日),男,浙江浦江人,中国电机工程和自动控制工程学家。1911年7月8日生于浙江省浦江县。1932年,从上海大同中学高中部毕业后,考入上海交通大学电机工
  • 现视研《现视研》(日语:げんしけん)是日本漫画家木尾士目的日本漫画作品。于讲谈社漫画杂志《月刊Afternoon》上进行连载。单行本全9卷。是部描写御宅族大学生日常生活的作品。2004年宣布改编为电视动画,于同年10月开始播放;2007年4月发表了将会制作第2期电视动画的消息,并于同年10月开始播放。合计24话。《月刊Afternoon》2010年2月号发表“アニメ‘げんしけん2’DVD-BOX发售记念特别短篇”,从笹原毕业后的《现视研》的续篇第56话;2010年12月号《现视研-二代目-》续短篇的第57话开始
  • 赫尔穆特·黑泽尔赫尔穆特·黑泽尔(德语:Helmut Hänsel,20世纪-),德国男子赛艇运动员。他曾代表东德参加1966年世界赛艇锦标赛,获得男子四人单桨有舵手金牌。
  • 君特·内策尔君特·内策尔(德语:Günter Netzer,1944年9月14日-),是德国足球员,前西德国脚,主要担任进攻中场。现时是德国一家电视台首席足球评述员。君特·内策尔早年出身于德国球会门兴格拉德巴赫,为当时球会成为德甲争标分子。内策尔成绩最好的时代乃1972年为西德夺取欧洲国家杯,他在3-0大胜的决赛中,和海因克斯、克雷默斯三人穿针引线的传球配合完全瘫痪了苏联的防线,两年后也成为1974年世界杯冠军西德队的成员,但此时他的先发位子被奥佛拉特取代。他一共37次代表国家队,入6球。内策尔除了为门兴格拉德巴赫两
  • 双精度浮点数双精度浮点数(double)是计算机使用的一种资料类型。比起单精度浮点数,双精度浮点数使用 64 位(8字节) 来存储一个浮点数。它可以表示二进位制的53位有效数字,其可以表示的数字的绝对值范围为 {\displaystyle } 。sign bit(符号):用来表示正负号exponent(指数):用来表示次方数mantissa(尾数):用来表示精确度0代表数值为正,1代表数值为负。共有11个比特 , 使用“偏移表示法(英语:Expone