半监督学习

✍ dations ◷ 2025-07-03 22:20:35 #半监督学习

半监督学习(英语:Semi-supervised learning)是机器学习的一个分支,它在训练时使用了少量的有标签数据(Labeled data)和大量的无标签数据(Unlabeled data)。半监督学习介于无监督学习(训练数据全部无标签)和有监督学习(训练数据全部有标签)之间。半监督学习旨在缓解训练数据中有标签数据有限的问题。

无监督学习适用的的问题往往有着大量的无标签样本,同时获得有标签样本成本较高。部分其它机器学习分支有着相同动机,但是遵从不同的假设和方法,例如主动学习(英语:Active_learning_(machine_learning))和弱监督学习。将无标签样本和少量有标签样本同时使用时,会对学习的准确性产生极大改善。为特定问题获得有标签的数据通常需要熟练工(例如转录音频片段)或进行物理实验(例如确定蛋白质的三维结构,或者确定特定地点是否有油气)。由此,获得有标签样本的成本往往较高,获取大型的、完全标注的样本集是不可行的;同时,获取无标签的样本成本往往相对较低。此时,半监督学习具有较大的使用价值。半监督学习在机器学习和人类学习的建模方面也具有理论价值。

正式的来说,半监督学习假设有 l {displaystyle l} 个独立同分布的样本 x 1 , , x l X {displaystyle x_{1},dots ,x_{l}in X} 及对应的标签 y 1 , , y l Y {displaystyle y_{1},dots ,y_{l}in Y} ,和 u {displaystyle u} 个无标签的样本 x l + 1 , , x l + u X {displaystyle x_{l+1},dots ,x_{l+u}in X} 。半监督学习结合这些样本来获得相比于放弃无标签样本进行有监督学习或放弃有标签样本进行无监督学习更好的分类性能。

半监督学习可以是推断学习(英语:Transduction_(machine_learning))或归纳学习。推断学习的目的是推断给定无标签样本 x l + 1 , , x l + u {displaystyle x_{l+1},dots ,x_{l+u}} 的正确标签;归纳学习的目的是推断 X {displaystyle X} Y {displaystyle Y} 的正确映射。

直观地说,学习问题可以看成一次考试,有标签样本是为了帮助学习,由老师解答的样题。推断学习中,未解决的问题是考试题目;归纳学习中,它们是会构成考试的练习题。

对整个输入空间进行推断学习没有必要(依据Vapnik准则,也是不够谨慎的)。然而在实践中,为推断学习和归纳学习设计的算法通常交替使用。

为了充分利用无标签数据,数据分布必须有某种潜在的规律。以下是半监督学习可能用到的假设:

“相近的数据点往往更可能有相同的标签。”这也是有监督学习中的一般假设,该假设同时对几何学上的简单决策边界有所偏好。由于很少有点相互接近但属于不同的类别,因此半监督学习的平滑性假设还产生了对低密度区域的决策边界的偏好。

“数据倾向形成离散的集群,在同一个集群中的数据点往往更可能由相同的标签(尽管具有相同标签的数据点可能分散在多个集群中)。”这是平滑性假设的特例,产生了带有聚类算法的特征学习。

“数据大致位于比输入空间维度更低的低维流形上。”在这种情况下,同时使用有标签和无标签的数据学习流形可以避免维数灾难。学习过程可以使用在流形上定义的距离和密度。

当高维数据由一些难以直接建模、仅有少数几个自由度的过程生成时,流形假设很实用。例如,人的声音由若干声带褶皱(Vocal folds)控制、面部肌肉由几个肌肉控制。此时,在问题的生成空间中考虑距离和光滑性,比在所有可能的声波或图像中考虑问题更好。

启发式的自训练方法(self-training,也称自学习(slef-learning)或自标记(self-labeling))是历史上最古老的半监督学习方法,其应用实例起源于20世纪60年代。

推断学习的框架是由弗拉基米尔·瓦普尼克于20世纪70年代正式提出,对使用生成模型的归纳学习的兴趣也起源于同一时期。1995年,Ratsaby和Venkatesh证明了高斯混合模型半监督学习概率近似正确学习(英语:Probably_approximately_correct_learning)(Probably approximately correct learning,PAC Learning)的边界。

半监督学习近期的流行是因为在实践中,大量的应用可以获得无标签数据(例如网页中的文本、蛋白质序列或图片)。

相关

  • 非二元性别非二元性别(英语:Non-binary gender)、性别酷儿(英语:genderqueer)和X性别(日语:Xジェンダー)是指一系列不完全是男性或女性的性别认同,这些身份在男性或女性的分类以外。非二元性别可
  • 六一九炮战六一九炮战,又称六一七炮战,发生于1960年6月间,时任美国总统艾森豪威尔访问中华民国,中华人民共和国方面为表示抗议,以“欢迎”和“相送”为名,在6月17日下午对金门地区各岛屿全面
  • 大战略大战略(grand strategy)又称为高战略(high strategy),以“有目的的运用所有一个安全共同体能运用的权力手段”来利用国家整体资源的总体战略。冷战时期,美国的围堵政策。
  • 各国国防预算列表这是一个各国国防预算列表,数据来自斯德哥尔摩国际和平研究所,数值都是使用美元标注。不过对先进军事科技的投资也对民生科技发展有利,借由提高本国科技可以达到把饼坐大的好处
  • 柏脩觉罗柏脩,中国满洲镶红旗人,中国清朝政府官员,他于1732年以陕西道监察御史之差接替奚德慎出任巡视台湾监察御史,该官职满汉人各一,而满人的他与高山共为同任御史。
  • Lp范数 L p {\displaystyle L_{p}} -范数(英语: L
  • 光度函数光度函数或相对视见函数为人眼对不同波长光的平均视觉灵敏度,可用于将辐射能量转化为可见光的计算。它并非在所有情况下都完全准确,而是一个以实验方式得到的平均值。经由国际
  • 锡斯内火山锡斯内山(西班牙语:Nevado El Cisne)是哥伦比亚的火山,位于该国西部,属于安第斯山脉的一部分,最高点海拔高度4,636米,火山穹丘由玄武岩和安山岩组成。
  • OptusOptus(全称Singtel Optus Pty Limited)是新加坡电信旗下的一家公司。自2001年起由新加坡电信完全拥有。Optus目前是澳大利亚第二大电信供应商,仅次于澳大利亚电信公司。
  • 皇太子作品集外莱塔尼亚:16. 匈牙利王国,17. 克罗地亚-斯拉沃尼亚王国帝国直辖省份:18. 波斯尼亚和黑塞哥维纳《皇太子作品集》(德语:Kronprinzenwerk),全称《图片和文字中的奥地利-匈牙利君主国》(德语:Die österreichisch-ungarische Monarchie in Wort und Bild),是奥匈帝国皇太子鲁道夫组织撰写的、24卷的地域研究百科全书。这本百科全书描述了奥匈帝国境内的王国、人民、风景和文化。德语版由地理历史学家约瑟夫·冯·维伦(Josef Weil vo