首页 >
表征学习
✍ dations ◷ 2025-11-25 15:43:28 #表征学习
在机器学习中,特征学习或表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。机器学习任务,例如分类问题,通常都要求输入在数学上或者在计算上都非常便于处理,在这样的前提下,特征学习就应运而生了。然而,在我们现实世界中的数据例如图片,视频,以及传感器的测量值都非常的复杂,冗余并且多变。那么,如何有效的提取出特征并且将其表达出来就显得非常重要。传统的手动提取特征需要大量的人力并且依赖于非常专业的知识。同时,还不便于推广。这就要求特征学习技术的整体设计非常有效,自动化,并且易于推广。特征学习可以被分为两类:监督的和无监督的,类似于机器学习。监督特征学习就是从被标记的数据中学习特征。大致有一下几种方法。总体来说,字典学习是为了从输入数据获得一组的表征元素,使每一个数据点可以(近似的)通过对表征元素加权求和来重构。字典中的元素和权值可以通过最小化表征误差来得到。通过L1正则化可以让权值变得稀疏(例,每一个数据点的表征只有几个非零的权值)。监督字典学习利用输入数据的结构和给定的标签(输出)来优化字典。例如,2009年Mairal等人提出的一种监督字典学习方案被应用在了分类问题上。这个方案的优化目标包括最小化分类误差,表征误差,权值的1范数(L1正则化)和分类器参数的2范数。
有监督的字典学习可以被视为一个三层神经网络(一层隐含层),第一层(输入层)到第二层(隐含层)是表征学习,第二层到第三层(输出)是分类器的参数回归。神经网络是通过多层由内部相连的节点组成的网络的一个学习算法。它的命名是受到神经系统的启发,它的每一个节点就像神经系统里的神经元,而每一条边就像一条突触。神经网络里面的每一条边都有对应的权值,而整个网络则定义运算法则将输入数据转换成为输出。神经网络的网络函数通过权值来刻画输入层跟输出层之间的关系。通过适当的调整网络函数,可以尽量最小化损耗的同时解决各种各样的机器学习任务。
相关
- 逻辑学逻辑(古希腊语:λογική;德语:Logik;法语:logique;英语:logic;意大利语、西班牙语、葡萄牙语: logica),又称理则、论理、推理、推论,是对有效推论的哲学研究。逻辑被使用在大部分的
- 数据挖掘数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集(英语:data set)中发现模式的计算过程。数
- 人文地理学人文地理学(英语:Human geography),是一类社会科学分支,关于研究世界、人类社会、文化、经济与环境的相互作用,强调空间和地区的关系。作为一门学科,地理分为自然地理和人文地理,后
- 建筑设备建筑设备指所有适用于房间和建筑的技术措施,包括经营场所和公共场所的能源(采暖,照明)和供应(水,空气)或废物排放(污水,垃圾)。其目的是对居民和用户提供建筑物的正常使用和必要的安全
- 7-烯胆甾烷醇胆甾-7-烯-3β-醇或7-胆甾烯醇(英语:5α-Cholest-7-en-3β-ol,或 Lathosterol)是一种胆固醇合成的中间产物,从酵母甾醇合成而来,由甾醇C5去饱和酶(英语:Sterol-C5-desaturase-like)催
- 库安沙河广萨河(Cuanza River),又名宽扎河,是安哥拉的河流,在首都罗安达以南流入大西洋。广萨河下游可航行的河道长150英哩,是北广萨省和南广萨省的分界线。在首项生物多样性计划中,显示广
- 退行发育(Anaplasia)逆行性生长(Anaplasia),是指成熟的正常细胞非正常地复归未成熟的细胞,为恶性肿瘤(malignant neoplasms)的指标性症状。大多数癌细胞会导致细胞去分化,让细胞无限制的分裂。但发生在
- 李邦河李邦河(1942年-),浙江温州乐清市人,知名数学家。主要从事微分拓扑、低维拓扑的量子不变量、非标准分析和广义函数等领域的研究。1965年毕业于中国科学技术大学数学系,现为中科院数
- 人道在佛教术语中,人类(梵语:manuṣya,巴利语:manussa)称为人道、人趣(趋),是轮回六道或五道之一。因居住在十界之第五,又称为人界,为六道中最适合修行之一道。人界是对于其他界而言:佛教将
- 性伴侣性伴侣(Sexual partner)指的是一个人的性行为对象,彼此之间的关系不一定是情侣。性伴侣并无性别或是性取向之分。一个人的性伴侣不一定只有一个,性伴侣的身份可能是情人、夫妻、
