稀松字典学习

✍ dations ◷ 2025-06-08 18:05:26 #机器学习

稀松字典学习是一种表征学习方法,其目的在于找出一组基本元素让输入讯号映射到这组基本元素时具有稀松表达式。我们称这些基本元素为“原子”,这些原子的组合则为“字典”。字典里的“原子“并不需要满足正交这一特性,且往往它们会是过完备的生成集合。过多的原子除了可以让我们在叙述一个讯号的时候可以由很多种表达式,同时也提升了整个表达式的稀松性,让我们可以以较简单的表达式来诠释讯号。

稀松字典学习最主要应用在压缩感知及讯号还原上。在压缩感知上,当你的讯号具有稀松或者接近稀松特质时,那么只需要对讯号进行几次的随机取样就可以把高维度的讯号描述出来。但在现实世界中,并不是全部讯号都具有稀松这一特性,所以我们需要把找出这些讯号的稀松表达式,转换方式有很多种,根据不同的讯号有不同的转换方式。当高维度的讯号转换至稀松讯号是,那么就可以透过少次数的线性取样,并利用一些还原算法如:基追踪(Basis Pursuit)、CoSaMP、正交匹配追踪(Orthogonal Matching Pursuit)等方法来对讯号进行还原。

在这整个过程中,关键在于如何找到一个转换方式把讯号转换到具有稀松表达式的域内,也就是如何建立一个字典,让讯号投影在这个字典上时具有稀松表达式。而稀松字典学习就是利用学习的方式帮我们找出这个转换方法,即稀松字典。稀松字典学习的兴起是基于在讯号处理中,如何使用较少的元素来叙述一个讯号。在这之前,普遍上大家还是使用傅立叶转换(Fourier Transform)及小波转换(Wavelet Transform)。不过在某一些情境下,使用透过字典学习得到的字典来进行转换,能有效的提高讯号的稀松性。高稀松性意味着讯号的可压缩性越高,因此稀松字典学习也被应用在资料分解、压缩和分析。

假设输入讯号集合 X = , x i R d {\displaystyle X=,x_{i}\in \mathbb {R} ^{d}} ,我们希望找到一个字典 D R d × n : D = {\displaystyle \mathbf {D} \in \mathbb {R} ^{d\times n}:D=} 和一个表达式 R = , r i R n {\displaystyle R=,r_{i}\in \mathbb {R} ^{n}} ,让 X D R F 2 {\displaystyle \|X-\mathbf {D} R\|_{F}^{2}} 最小化,且其表达式 r i {\displaystyle r_{i}} 足够稀松。

这个问题可以被视为是下面这个最佳化问题:

argmin D C , r i R n i = 1 K x i D r i 2 2 + λ r i 0 {\displaystyle {\underset {\mathbf {D} \in {\mathcal {C}},r_{i}\in \mathbb {R} ^{n}}{\text{argmin}}}\sum _{i=1}^{K}\|x_{i}-\mathbf {D} r_{i}\|_{2}^{2}+\lambda \|r_{i}\|_{0}} ,而

C { D R d × n : d i 2 1 i = 1 , . . . , n } {\displaystyle {\mathcal {C}}\equiv \{\mathbb {D} \in \mathbb {R} ^{d\times n}:\|d_{i}\|_{2}\leq 1\,\,\forall i=1,...,n\}} λ > 0 {\displaystyle \lambda >0}

这里需要 C {\displaystyle {\mathcal {C}}} 来限制 D {\displaystyle \mathbf {D} } 的原子不会因 r i {\displaystyle r_{i}} 的值非常小而变得无穷大。 λ {\displaystyle \lambda } 这里则是控制稀松性, λ {\displaystyle \lambda } 越大,稀松性越大, λ {\displaystyle \lambda } 越小,稀松性越小,但稀松性越大代表还原的误差也会越大, λ {\displaystyle \lambda } 的取值常常伴随着稀松性与还原误差之间的取舍。

当n<d,上述定义的稀松字典 D {\displaystyle \mathbf {D} } 被称为低完备(undercomplete);当n>d,稀松字典 D {\displaystyle \mathbf {D} } 则被称为过完备(overcomplete)。

低完备字典会让输入讯号投影到低维度空间,类似于降维(dimension reduction)、主要成分分析。在投影到低完备的字典时,如何选择重要的子空间(subspace)是非常重要的,选择对的子空间能够让讯号最大程度的被保留下来。使用低完备字典进行降维这个方法可以应用在资料分析或分类上。

过完备的字典由于由较多的“原子”组成,因此一般上拥有较丰富的表达式。此外,过完备的特性能让讯号投影在到过完备字典时拥有稀松的特性。而透过学习得到的字典,即透过稀松字典学习而来的字典能让讯号在投影过来之后拥有更加稀松的表达式。

在问题定义有提到,在找寻一个可以让讯号投影至该空间并具有稀松特质的字典其实就是一种最佳化问题。这最佳化问题与稀松编码以及字典相关,目前大部分算法都是迭代式的相继更新字典以及其表达式。

最佳方向法是其中一个最早被提出用来解决稀松字典学习的方法。最佳方向法的核心理念是下面的最小化问题,在下面的最小化问题中,它的表达式只有固定数量的非零数值。

min D , R { X D R F 2 } s.t. i r i 0 T {\displaystyle \min _{\mathbf {D} ,R}\{\|X-\mathbf {D} R\|_{F}^{2}\}\,\,{\text{s.t.}}\,\,\forall i\,\,\|r_{i}\|_{0}\leq T}

在这里, F {\displaystyle F} 为弗罗贝尼乌斯范数(Frobenius norm)。在整个算法过程中,MOD使用匹配追纵(Matching Pursuit)来取得讯号的稀松编码,随即计算 D = X R + {\displaystyle \mathbf {D} =XR^{+}} 的解析解(analytic solution),这里的 R + {\displaystyle R^{+}} 指的是摩尔-彭若斯广义逆(Moore-Penrose pseudoinverse)。随后这个更新后的 D {\displaystyle \mathbf {D} } 会在再标准化(renormalized)以达到我们的约束条件。这时,新的稀松编码也会同时计算得到。这个过程会一直重复直到稀松字典 D {\displaystyle \mathbf {D} } 以及稀松编码 R {\displaystyle R} 收敛为止。

相关链接参考:K-SVD

K-SVD 主要是以奇异值分解为核心来更新稀松字典的“原子”。它会让输入讯号 x i {\displaystyle x_{i}} 以不超过 T 0 {\displaystyle T_{0}} 的元素以线性组合的方式表示,整个过程与MOD类似:

min D , R { X D R F 2 } s.t. i r i 0 T 0 {\displaystyle \min _{\mathbf {D} ,R}\{\|X-\mathbf {D} R\|_{F}^{2}\}\,\,{\text{s.t.}}\,\,\forall i\,\,\|r_{i}\|_{0}\leq T_{0}}

整个算法的过程在,一、先固定字典,找出满足上述条件相对应的 R {\displaystyle R} (可以使用匹配追踪)。然后固定 R {\displaystyle R} ,利用下面的式子迭代式的更新字典。

X D R F 2 = | X i = 1 K d i x T i | F 2 = E k d k x T k F 2 {\displaystyle \|X-\mathbf {D} R\|_{F}^{2}=\left|X-\sum _{i=1}^{K}d_{i}x_{T}^{i}\right|_{F}^{2}=\|E_{k}-d_{k}x_{T}^{k}\|_{F}^{2}}

整个字典学习的架构,其实就是对我们的输入讯号进行线性分解,分解到字典里的少数“原子”,并具有稀松特性。而这些“原子”是由本身的讯号产生,或学习得出来的。稀松字典学习可以应用在影像或者是影片处理。这个技术也常常被应用在分类问题上,我们可以针对不同的分类来对字典进行设计,透过输入讯号映射到字典的稀松表达式,我们可以较容易的把该讯号进行有效的分类。

此外,字典学习还有一个性质,那就是在噪声去除上非常有效。这时因为字典在学习时会找出输入讯号相似的特性,这时候具有意义的讯号会被学习到字典,而不具意义的讯号则会被排除在字典之外。那么,当输入讯号映射到字典时,由于字典不含有噪声的“原子”,所以该讯号在还原回来时不会有噪声。

相关

  • 旁狄希腊语本都希腊语(Ποντιακή διάλεκτος或Ποντιακά)是希腊语的一种,使用在本都地区,包括东北安纳托利亚、黑海、土耳其的卡尔斯省、南格鲁吉亚、今天主要在希
  • TMP胸苷单磷酸(Thymidine monophosphate,TMP)是一种核苷酸,可见于DNA分子中,含有磷酸基团、五碳糖,以及碱基胸腺嘧啶。
  • 消化酶消化酶(英语:digestive enzymes)是将聚合的高分子降解为他们的构建单元的酶类,以促进他们被身体吸收。消化酶类可在动物(及人)的消化管内找到,在那里帮助食物的消化,他们也存在于细
  • 肌卫星细胞肌卫星细胞(Myosatellite cell)是一种位于骨骼肌中的细胞。肌卫星细胞呈扁平形,有突起,通常附着在肌纤维表面。当肌纤维受损伤后,肌卫星细胞可增殖分化,参与肌纤维的修复,具有干细
  • 英达英达(1960年7月7日-),是一位中国满族演员和导演。英达毕业于北京大学心理学系,1984年到1987年在密苏里大学戏剧表演系学习。2017年2月,他在美国因涉嫌洗钱被捕。英达一家是国内著
  • 南瀛天文馆南瀛天文馆是位于台南市大内区的天文教育馆,原为台南县政府以天文推广教育为主要目的而设立的“南瀛天文教育园区”,2010年县市合并时改名为“南瀛天文馆”,也和位于北区的台南
  • 郕叔武郕叔武(?-?),即成叔武,为周朝诸侯国郕国开国君主,他为周文王的第七子,周武王的弟弟,同母兄弟十人:伯邑考、周武王、管叔鲜、周公旦、蔡叔度、曹叔振铎、郕叔武、霍叔处、卫康叔、冉季载
  • 藤田昌久藤田昌久(日语:藤田 昌久/ふじた まさひさ  ?,1943年-),是日本知名经济学家,专长都市经济学(日语:都市経済学)、空间经济学(日语:空間経済学),当代新经济地理学(New Economic Geography)三
  • 赤金堡组赤金堡组是位于中国甘肃玉门及与内蒙古交界地区的下白垩世地层,1941年由王尚文命名。该地层以紫红、灰绿色砾岩、砂岩、砂质泥岩、灰黑色页岩为主,间夹煤层与泥灰岩。
  • 圣训学圣训学是穆斯林学者用来甄别圣训真伪的学门。在圣训学里,传述世系(sanad)与正文(matn)两者都是很重要的概念。圣训学就是要研究传述世系与圣训正文的真伪,藉以甄别出可靠的“正训