表征学习

✍ dations ◷ 2025-12-09 12:27:01 #表征学习
在机器学习中,特征学习或表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。机器学习任务,例如分类问题,通常都要求输入在数学上或者在计算上都非常便于处理,在这样的前提下,特征学习就应运而生了。然而,在我们现实世界中的数据例如图片,视频,以及传感器的测量值都非常的复杂,冗余并且多变。那么,如何有效的提取出特征并且将其表达出来就显得非常重要。传统的手动提取特征需要大量的人力并且依赖于非常专业的知识。同时,还不便于推广。这就要求特征学习技术的整体设计非常有效,自动化,并且易于推广。特征学习可以被分为两类:监督的和无监督的,类似于机器学习。监督特征学习就是从被标记的数据中学习特征。大致有一下几种方法。总体来说,字典学习是为了从输入数据获得一组的表征元素,使每一个数据点可以(近似的)通过对表征元素加权求和来重构。字典中的元素和权值可以通过最小化表征误差来得到。通过L1正则化可以让权值变得稀疏(例,每一个数据点的表征只有几个非零的权值)。监督字典学习利用输入数据的结构和给定的标签(输出)来优化字典。例如,2009年Mairal等人提出的一种监督字典学习方案被应用在了分类问题上。这个方案的优化目标包括最小化分类误差,表征误差,权值的1范数(L1正则化)和分类器参数的2范数。 有监督的字典学习可以被视为一个三层神经网络(一层隐含层),第一层(输入层)到第二层(隐含层)是表征学习,第二层到第三层(输出)是分类器的参数回归。神经网络是通过多层由内部相连的节点组成的网络的一个学习算法。它的命名是受到神经系统的启发,它的每一个节点就像神经系统里的神经元,而每一条边就像一条突触。神经网络里面的每一条边都有对应的权值,而整个网络则定义运算法则将输入数据转换成为输出。神经网络的网络函数通过权值来刻画输入层跟输出层之间的关系。通过适当的调整网络函数,可以尽量最小化损耗的同时解决各种各样的机器学习任务。

相关

  • 中世纪中世纪(公元5世纪-公元15世纪)是欧洲历史三大传统划分(“古典时代”、“中世纪”和“近现代”)的一个中间时期,始于西罗马帝国(公元476年)的灭亡,终于东罗马帝国(公元1453年)的灭亡,最
  • 胰脂肪酶胰脂肪酶(Pancrelipases),特别是它的缓释剂型(例如: Creon, Pancreaze, Pertzye, Ultresa, Zenpep) 是猪源性胰淀粉酶的商用混合物(作用于淀粉水解酶),胰脂肪酶和胰凝乳蛋白
  • 输尿管炎输尿管炎(Ureteritis)指涉及炎症的输尿管医疗病症。其中的一种病症形式被称为"囊性输尿管炎"(ureteritis cystica)。嗜酸粒细胞(Eosinophilic)输尿管炎的病症形式的存在也已
  • 堆肥式厕所堆肥式厕所(英语:composting toilet)或生化厕所(bio toilet)是一种以极少水量冲厕或甚至是无水的厕所,排泄物流入便池中混合木糠、椰棕(英语:Coir)或泥炭藓等物质带氧分解成堆肥,多余
  • 含糊含糊(英语:vagueness),或作模糊,是语义学、哲学用语。在语义学、哲学领域,一般对含糊的解读是:日常语言中,含糊是无法避免的,甚至经常是刻意营造的结果。然而,在专业的文本中,人们通常
  • 在有机化学中,酚类化合物(英语:phenol)是一类通式为ArOH,结构为芳烃环上的氢被羟基(—OH)取代的一类芳香族化合物。酚类化合物中最简单的酚为苯酚(C6H5OH,亦称石炭酸)。虽然结构与醇类
  • 秦汉秦汉(公元前221年-公元220年)是中国秦朝和汉朝的并称,该时期结束了春秋战国的分裂局面,废除西周封建制,确立了中央集权。秦汉两朝建立了“天下国家”体制,是塑造中国的民族性格的时
  • 主要节日节日,是生活中值得纪念的重要日子。各民族和地区都有自己的节日。一些节日源于传统习俗,如东亚的新春,端午节、中秋节、清明节、重阳节等。有的节日源于宗教,比如圣诞节、复活节
  • 同源基因同源基因(Homeotic gene)是定义身体各部分组成身体部位的基因。对细胞分裂很重要的Hox基因和ParaHox基因便其中的例子。在ABC模型中带有的MADS盒蛋白基因是另一个例子。同源异
  • 陆大道陆大道(1940年10月22日-),中国科学院院士,中国地理学家。1940年出生于安徽桐城。主要从事经济地理学研究。1963年毕业于北京大学地质地理系。2003年当选为中国科学院院士。现为中