半监督学习

✍ dations ◷ 2025-02-24 08:11:08 #半监督学习

半监督学习(英语:Semi-supervised learning)是机器学习的一个分支,它在训练时使用了少量的有标签数据(Labeled data)和大量的无标签数据(Unlabeled data)。半监督学习介于无监督学习(训练数据全部无标签)和有监督学习(训练数据全部有标签)之间。半监督学习旨在缓解训练数据中有标签数据有限的问题。

无监督学习适用的的问题往往有着大量的无标签样本,同时获得有标签样本成本较高。部分其它机器学习分支有着相同动机,但是遵从不同的假设和方法,例如主动学习(英语:Active_learning_(machine_learning))和弱监督学习。将无标签样本和少量有标签样本同时使用时,会对学习的准确性产生极大改善。为特定问题获得有标签的数据通常需要熟练工(例如转录音频片段)或进行物理实验(例如确定蛋白质的三维结构,或者确定特定地点是否有油气)。由此,获得有标签样本的成本往往较高,获取大型的、完全标注的样本集是不可行的;同时,获取无标签的样本成本往往相对较低。此时,半监督学习具有较大的使用价值。半监督学习在机器学习和人类学习的建模方面也具有理论价值。

正式的来说,半监督学习假设有 l {displaystyle l} 个独立同分布的样本 x 1 , , x l X {displaystyle x_{1},dots ,x_{l}in X} 及对应的标签 y 1 , , y l Y {displaystyle y_{1},dots ,y_{l}in Y} ,和 u {displaystyle u} 个无标签的样本 x l + 1 , , x l + u X {displaystyle x_{l+1},dots ,x_{l+u}in X} 。半监督学习结合这些样本来获得相比于放弃无标签样本进行有监督学习或放弃有标签样本进行无监督学习更好的分类性能。

半监督学习可以是推断学习(英语:Transduction_(machine_learning))或归纳学习。推断学习的目的是推断给定无标签样本 x l + 1 , , x l + u {displaystyle x_{l+1},dots ,x_{l+u}} 的正确标签;归纳学习的目的是推断 X {displaystyle X} Y {displaystyle Y} 的正确映射。

直观地说,学习问题可以看成一次考试,有标签样本是为了帮助学习,由老师解答的样题。推断学习中,未解决的问题是考试题目;归纳学习中,它们是会构成考试的练习题。

对整个输入空间进行推断学习没有必要(依据Vapnik准则,也是不够谨慎的)。然而在实践中,为推断学习和归纳学习设计的算法通常交替使用。

为了充分利用无标签数据,数据分布必须有某种潜在的规律。以下是半监督学习可能用到的假设:

“相近的数据点往往更可能有相同的标签。”这也是有监督学习中的一般假设,该假设同时对几何学上的简单决策边界有所偏好。由于很少有点相互接近但属于不同的类别,因此半监督学习的平滑性假设还产生了对低密度区域的决策边界的偏好。

“数据倾向形成离散的集群,在同一个集群中的数据点往往更可能由相同的标签(尽管具有相同标签的数据点可能分散在多个集群中)。”这是平滑性假设的特例,产生了带有聚类算法的特征学习。

“数据大致位于比输入空间维度更低的低维流形上。”在这种情况下,同时使用有标签和无标签的数据学习流形可以避免维数灾难。学习过程可以使用在流形上定义的距离和密度。

当高维数据由一些难以直接建模、仅有少数几个自由度的过程生成时,流形假设很实用。例如,人的声音由若干声带褶皱(Vocal folds)控制、面部肌肉由几个肌肉控制。此时,在问题的生成空间中考虑距离和光滑性,比在所有可能的声波或图像中考虑问题更好。

启发式的自训练方法(self-training,也称自学习(slef-learning)或自标记(self-labeling))是历史上最古老的半监督学习方法,其应用实例起源于20世纪60年代。

推断学习的框架是由弗拉基米尔·瓦普尼克于20世纪70年代正式提出,对使用生成模型的归纳学习的兴趣也起源于同一时期。1995年,Ratsaby和Venkatesh证明了高斯混合模型半监督学习概率近似正确学习(英语:Probably_approximately_correct_learning)(Probably approximately correct learning,PAC Learning)的边界。

半监督学习近期的流行是因为在实践中,大量的应用可以获得无标签数据(例如网页中的文本、蛋白质序列或图片)。

相关

  • 国际固定历国际固定历(也被称为Cotsworth提案、伊士曼提案、13月固定历),是由Moses Bruine Cotsworth在1902年提出的太阳历历法革新提案,他将太阳年分为13个月,每月固定有28天。因此国际固
  • 苏联共产党中央政治局苏联主题苏联共产党中央政治局 (俄语:Политбюро ЦК КПСС,罗马化:Politbyuro TsK KPSS),1952至1966年间称为“苏共中央主席团”,为苏联共产党的中央决策和领导机构。
  • 蒋新松蒋新松(1931年8月3日-1997年3月30日),江苏省江阴县人,中华人民共和国科学家、被誉为“中国机器人之父”。16岁时,蒋新松曾在城东华墅镇的一家纱厂当过学徒工。1951年4月,在江阴南菁
  • 米哈伊尔·伊里奇·卡扎科夫米哈伊尔·伊里奇·卡扎科夫(俄语:Михаи́л Ильи́ч Казако́в,1901年10月9日(9月26日)-1979年12月25日)苏联军事指挥官、苏联大将。1919年,加入俄国共产党。1920
  • 夏尔扎·扎西坚赞夏尔扎·扎西坚赞(藏语:.mw-parser-output .uchen{font-family:"Qomolangma-Dunhuang","Qomolangma-Uchen Sarchen","Qomolangma-Uchen Sarchung","Qomolangma-Uchen Suring",
  • 邓禹邓禹(2年-58年),字仲华,南阳新野人,东汉初年军事人物。他协助汉光武帝建立东汉,既定河北,复平关中,是“云台二十八将”之首。邓禹十三岁就能背诵《诗经》,后至长安学习,认为同在长安游
  • 法比奥·达尔佐托法比奥·达尔佐托(意大利语:Fabio Dal Zotto,1957年7月17日-),意大利男子击剑运动员。他曾获得1976年夏季奥运会击剑比赛男子花剑个人金牌以及男子花剑团体银牌。
  • 邱苡晰邱苡晰(英语:Melody,2006年4月26日-),是台湾童星,台北人,与孪生妹妹邱苡媃组成乐乐媃媃,经纪公司为宝丽来国际娱乐,代表作品有《原来是美男》、《幸福兑换券》等。
  • 1896年夏季奥林匹克运动会混合代表团早期的奥运会可以允许团队中的成员来自两个不同的国家,国际奥委会会将他们的成绩归为混合(国际奥委会代码 ZZX)。在1896年夏季奥运会上,网球双打比赛首次允许以混合队形式比赛,共有三队混合队参加并且同时夺得金牌、银牌及铜牌。
  • 彼得·克罗夫特彼得·克罗夫特(英语:Peter Downton Croft,1933年7月7日-2021年7月18日),英国男子板球、曲棍球运动员。他曾代表英国国家队参加1960年夏季奥林匹克运动会曲棍球比赛,获得第四名。