半监督学习

✍ dations ◷ 2025-11-12 10:23:42 #半监督学习

半监督学习(英语:Semi-supervised learning)是机器学习的一个分支,它在训练时使用了少量的有标签数据(Labeled data)和大量的无标签数据(Unlabeled data)。半监督学习介于无监督学习(训练数据全部无标签)和有监督学习(训练数据全部有标签)之间。半监督学习旨在缓解训练数据中有标签数据有限的问题。

无监督学习适用的的问题往往有着大量的无标签样本,同时获得有标签样本成本较高。部分其它机器学习分支有着相同动机,但是遵从不同的假设和方法,例如主动学习(英语:Active_learning_(machine_learning))和弱监督学习。将无标签样本和少量有标签样本同时使用时,会对学习的准确性产生极大改善。为特定问题获得有标签的数据通常需要熟练工(例如转录音频片段)或进行物理实验(例如确定蛋白质的三维结构,或者确定特定地点是否有油气)。由此,获得有标签样本的成本往往较高,获取大型的、完全标注的样本集是不可行的;同时,获取无标签的样本成本往往相对较低。此时,半监督学习具有较大的使用价值。半监督学习在机器学习和人类学习的建模方面也具有理论价值。

正式的来说,半监督学习假设有 l {displaystyle l} 个独立同分布的样本 x 1 , , x l X {displaystyle x_{1},dots ,x_{l}in X} 及对应的标签 y 1 , , y l Y {displaystyle y_{1},dots ,y_{l}in Y} ,和 u {displaystyle u} 个无标签的样本 x l + 1 , , x l + u X {displaystyle x_{l+1},dots ,x_{l+u}in X} 。半监督学习结合这些样本来获得相比于放弃无标签样本进行有监督学习或放弃有标签样本进行无监督学习更好的分类性能。

半监督学习可以是推断学习(英语:Transduction_(machine_learning))或归纳学习。推断学习的目的是推断给定无标签样本 x l + 1 , , x l + u {displaystyle x_{l+1},dots ,x_{l+u}} 的正确标签;归纳学习的目的是推断 X {displaystyle X} Y {displaystyle Y} 的正确映射。

直观地说,学习问题可以看成一次考试,有标签样本是为了帮助学习,由老师解答的样题。推断学习中,未解决的问题是考试题目;归纳学习中,它们是会构成考试的练习题。

对整个输入空间进行推断学习没有必要(依据Vapnik准则,也是不够谨慎的)。然而在实践中,为推断学习和归纳学习设计的算法通常交替使用。

为了充分利用无标签数据,数据分布必须有某种潜在的规律。以下是半监督学习可能用到的假设:

“相近的数据点往往更可能有相同的标签。”这也是有监督学习中的一般假设,该假设同时对几何学上的简单决策边界有所偏好。由于很少有点相互接近但属于不同的类别,因此半监督学习的平滑性假设还产生了对低密度区域的决策边界的偏好。

“数据倾向形成离散的集群,在同一个集群中的数据点往往更可能由相同的标签(尽管具有相同标签的数据点可能分散在多个集群中)。”这是平滑性假设的特例,产生了带有聚类算法的特征学习。

“数据大致位于比输入空间维度更低的低维流形上。”在这种情况下,同时使用有标签和无标签的数据学习流形可以避免维数灾难。学习过程可以使用在流形上定义的距离和密度。

当高维数据由一些难以直接建模、仅有少数几个自由度的过程生成时,流形假设很实用。例如,人的声音由若干声带褶皱(Vocal folds)控制、面部肌肉由几个肌肉控制。此时,在问题的生成空间中考虑距离和光滑性,比在所有可能的声波或图像中考虑问题更好。

启发式的自训练方法(self-training,也称自学习(slef-learning)或自标记(self-labeling))是历史上最古老的半监督学习方法,其应用实例起源于20世纪60年代。

推断学习的框架是由弗拉基米尔·瓦普尼克于20世纪70年代正式提出,对使用生成模型的归纳学习的兴趣也起源于同一时期。1995年,Ratsaby和Venkatesh证明了高斯混合模型半监督学习概率近似正确学习(英语:Probably_approximately_correct_learning)(Probably approximately correct learning,PAC Learning)的边界。

半监督学习近期的流行是因为在实践中,大量的应用可以获得无标签数据(例如网页中的文本、蛋白质序列或图片)。

相关

  • 合成按照IUPAC金皮书的定义,不对称合成(enantioselective synthesis、asymmetric synthesis),也称手性合成、立体选择性合成、对映选择性合成,是研究向反应物引入一个或多个具手性元
  • 地下连续墙地下连续墙(slurry wall)也翻译为连续壁或槽壁,是在地下工程施工时建设的处于地表之下的钢筋混凝土墙,用于支撑周围的软土层、挡水等目的。这项技术典型用于建筑物的基坑的四壁
  • 黾部,为汉字索引中的部首之一,康熙字典214个部首中的第二百〇五个(十三划的则为第一个)。就正体中文中,黾部归于十三划部首,而简体中文则归在八划。黾部只以下方为部字。且无其他
  • 古地理学古地理学是研究各个地质时期地球表面的自然地理环境及期发展的规的一门学科。它是地理学和地质学的分支学科。古地理学通过对沉积岩及岩层中的化石等的研究,来了解当时地表情
  • 费德里科·阿格利亚迪费德里科·阿格利亚迪(意大利语:Federico Agliardi;1983年2月11日-)是一位意大利足球运动员。在场上的位置是守门员。他现在效力于意大利足球乙级联赛球队切塞纳足球俱乐部。他也
  • 永恒日永恒日英文:Amartithi1969年1月31日中午12点钟,阿瓦塔美赫巴巴离开肉身。自从1970年1月起,这个日子被称作永恒日,每年在印度和世界各地被纪念。“Amartithi永恒日”这个词看来源
  • 白镕白镕,字小山,顺天通州(今北京市通州区)人。清朝政治人物。嘉庆四年(1799年)进士,选庶吉士,授编修,典福建乡试。嘉庆十八年(1813年),大考二等,擢赞善。督安徽学政。累迁少詹事。道光元年(18
  • 布列斯特站布列斯特站(乌克兰语:Берестейська,转写:Beresteiska)是基辅地铁斯维亚托申-布罗瓦里线的一个车站。布列斯特站开通于1971年,是斯维亚托申-布罗瓦里线二期工程的一部
  • 9M133短号反坦克导弹短号(GRAU 编号 9M133,俄语:Корнет),是俄军装备的一种先进的反坦克导弹(ATGM)。由俄罗斯图拉仪器设计制造局研制,1994年10月首次亮相,代号为AT-X- 14,用于取代有线制导的第二代AT-5“竞赛”式反坦克导弹。它既能打击坦克也能打击慢速低空的直升机。因为成本较高,目前只装备于特定单位及部队。它的北约代号是 AT-14 Spriggan(守宝妖精)。它们曾在2006年以黎战争中击毁过梅卡瓦坦克。由俄罗斯图拉仪器设计制造局研制,1994年10月首次亮相,代号为AT-X- 14,用于
  • 路易斯·库恩路易斯·库恩(英语:Louis Kuehn,1901年4月2日-1981年3月30日),生于俄勒冈州波特兰,美国前男子跳水运动员。他曾代表美国参加1920年夏季奥林匹克运动会跳水比赛,获得男子跳板金牌。