稀松字典学习

✍ dations ◷ 2025-09-10 02:23:11 #机器学习

稀松字典学习是一种表征学习方法,其目的在于找出一组基本元素让输入讯号映射到这组基本元素时具有稀松表达式。我们称这些基本元素为“原子”,这些原子的组合则为“字典”。字典里的“原子“并不需要满足正交这一特性,且往往它们会是过完备的生成集合。过多的原子除了可以让我们在叙述一个讯号的时候可以由很多种表达式,同时也提升了整个表达式的稀松性,让我们可以以较简单的表达式来诠释讯号。

稀松字典学习最主要应用在压缩感知及讯号还原上。在压缩感知上,当你的讯号具有稀松或者接近稀松特质时,那么只需要对讯号进行几次的随机取样就可以把高维度的讯号描述出来。但在现实世界中,并不是全部讯号都具有稀松这一特性,所以我们需要把找出这些讯号的稀松表达式,转换方式有很多种,根据不同的讯号有不同的转换方式。当高维度的讯号转换至稀松讯号是,那么就可以透过少次数的线性取样,并利用一些还原算法如:基追踪(Basis Pursuit)、CoSaMP、正交匹配追踪(Orthogonal Matching Pursuit)等方法来对讯号进行还原。

在这整个过程中,关键在于如何找到一个转换方式把讯号转换到具有稀松表达式的域内,也就是如何建立一个字典,让讯号投影在这个字典上时具有稀松表达式。而稀松字典学习就是利用学习的方式帮我们找出这个转换方法,即稀松字典。稀松字典学习的兴起是基于在讯号处理中,如何使用较少的元素来叙述一个讯号。在这之前,普遍上大家还是使用傅立叶转换(Fourier Transform)及小波转换(Wavelet Transform)。不过在某一些情境下,使用透过字典学习得到的字典来进行转换,能有效的提高讯号的稀松性。高稀松性意味着讯号的可压缩性越高,因此稀松字典学习也被应用在资料分解、压缩和分析。

假设输入讯号集合 X = , x i R d {\displaystyle X=,x_{i}\in \mathbb {R} ^{d}} ,我们希望找到一个字典 D R d × n : D = {\displaystyle \mathbf {D} \in \mathbb {R} ^{d\times n}:D=} 和一个表达式 R = , r i R n {\displaystyle R=,r_{i}\in \mathbb {R} ^{n}} ,让 X D R F 2 {\displaystyle \|X-\mathbf {D} R\|_{F}^{2}} 最小化,且其表达式 r i {\displaystyle r_{i}} 足够稀松。

这个问题可以被视为是下面这个最佳化问题:

argmin D C , r i R n i = 1 K x i D r i 2 2 + λ r i 0 {\displaystyle {\underset {\mathbf {D} \in {\mathcal {C}},r_{i}\in \mathbb {R} ^{n}}{\text{argmin}}}\sum _{i=1}^{K}\|x_{i}-\mathbf {D} r_{i}\|_{2}^{2}+\lambda \|r_{i}\|_{0}} ,而

C { D R d × n : d i 2 1 i = 1 , . . . , n } {\displaystyle {\mathcal {C}}\equiv \{\mathbb {D} \in \mathbb {R} ^{d\times n}:\|d_{i}\|_{2}\leq 1\,\,\forall i=1,...,n\}} λ > 0 {\displaystyle \lambda >0}

这里需要 C {\displaystyle {\mathcal {C}}} 来限制 D {\displaystyle \mathbf {D} } 的原子不会因 r i {\displaystyle r_{i}} 的值非常小而变得无穷大。 λ {\displaystyle \lambda } 这里则是控制稀松性, λ {\displaystyle \lambda } 越大,稀松性越大, λ {\displaystyle \lambda } 越小,稀松性越小,但稀松性越大代表还原的误差也会越大, λ {\displaystyle \lambda } 的取值常常伴随着稀松性与还原误差之间的取舍。

当n<d,上述定义的稀松字典 D {\displaystyle \mathbf {D} } 被称为低完备(undercomplete);当n>d,稀松字典 D {\displaystyle \mathbf {D} } 则被称为过完备(overcomplete)。

低完备字典会让输入讯号投影到低维度空间,类似于降维(dimension reduction)、主要成分分析。在投影到低完备的字典时,如何选择重要的子空间(subspace)是非常重要的,选择对的子空间能够让讯号最大程度的被保留下来。使用低完备字典进行降维这个方法可以应用在资料分析或分类上。

过完备的字典由于由较多的“原子”组成,因此一般上拥有较丰富的表达式。此外,过完备的特性能让讯号投影在到过完备字典时拥有稀松的特性。而透过学习得到的字典,即透过稀松字典学习而来的字典能让讯号在投影过来之后拥有更加稀松的表达式。

在问题定义有提到,在找寻一个可以让讯号投影至该空间并具有稀松特质的字典其实就是一种最佳化问题。这最佳化问题与稀松编码以及字典相关,目前大部分算法都是迭代式的相继更新字典以及其表达式。

最佳方向法是其中一个最早被提出用来解决稀松字典学习的方法。最佳方向法的核心理念是下面的最小化问题,在下面的最小化问题中,它的表达式只有固定数量的非零数值。

min D , R { X D R F 2 } s.t. i r i 0 T {\displaystyle \min _{\mathbf {D} ,R}\{\|X-\mathbf {D} R\|_{F}^{2}\}\,\,{\text{s.t.}}\,\,\forall i\,\,\|r_{i}\|_{0}\leq T}

在这里, F {\displaystyle F} 为弗罗贝尼乌斯范数(Frobenius norm)。在整个算法过程中,MOD使用匹配追纵(Matching Pursuit)来取得讯号的稀松编码,随即计算 D = X R + {\displaystyle \mathbf {D} =XR^{+}} 的解析解(analytic solution),这里的 R + {\displaystyle R^{+}} 指的是摩尔-彭若斯广义逆(Moore-Penrose pseudoinverse)。随后这个更新后的 D {\displaystyle \mathbf {D} } 会在再标准化(renormalized)以达到我们的约束条件。这时,新的稀松编码也会同时计算得到。这个过程会一直重复直到稀松字典 D {\displaystyle \mathbf {D} } 以及稀松编码 R {\displaystyle R} 收敛为止。

相关链接参考:K-SVD

K-SVD 主要是以奇异值分解为核心来更新稀松字典的“原子”。它会让输入讯号 x i {\displaystyle x_{i}} 以不超过 T 0 {\displaystyle T_{0}} 的元素以线性组合的方式表示,整个过程与MOD类似:

min D , R { X D R F 2 } s.t. i r i 0 T 0 {\displaystyle \min _{\mathbf {D} ,R}\{\|X-\mathbf {D} R\|_{F}^{2}\}\,\,{\text{s.t.}}\,\,\forall i\,\,\|r_{i}\|_{0}\leq T_{0}}

整个算法的过程在,一、先固定字典,找出满足上述条件相对应的 R {\displaystyle R} (可以使用匹配追踪)。然后固定 R {\displaystyle R} ,利用下面的式子迭代式的更新字典。

X D R F 2 = | X i = 1 K d i x T i | F 2 = E k d k x T k F 2 {\displaystyle \|X-\mathbf {D} R\|_{F}^{2}=\left|X-\sum _{i=1}^{K}d_{i}x_{T}^{i}\right|_{F}^{2}=\|E_{k}-d_{k}x_{T}^{k}\|_{F}^{2}}

整个字典学习的架构,其实就是对我们的输入讯号进行线性分解,分解到字典里的少数“原子”,并具有稀松特性。而这些“原子”是由本身的讯号产生,或学习得出来的。稀松字典学习可以应用在影像或者是影片处理。这个技术也常常被应用在分类问题上,我们可以针对不同的分类来对字典进行设计,透过输入讯号映射到字典的稀松表达式,我们可以较容易的把该讯号进行有效的分类。

此外,字典学习还有一个性质,那就是在噪声去除上非常有效。这时因为字典在学习时会找出输入讯号相似的特性,这时候具有意义的讯号会被学习到字典,而不具意义的讯号则会被排除在字典之外。那么,当输入讯号映射到字典时,由于字典不含有噪声的“原子”,所以该讯号在还原回来时不会有噪声。

相关

  • 弗里茨·阿尔贝特·李普曼弗里茨·阿尔贝特·李普曼(Fritz Albert Lipmann,1899年6月12日-1986年7月24日),生于德国的犹太裔美国籍生物化学家,由于发现辅酶A及其作为中间体在代谢中的重要作用而获得1953年
  • 伯克利音乐学院伯克利音乐学院(Berklee College of Music)是一所位于美国马萨诸塞州波士顿的独立音乐学院,建校于1945年。该校约有5,241名学生,是全世界规模最大且最顶尖的独立现代音乐学院,以
  • 澎湖群岛澎湖群岛,亦称澎湖列岛,是位于台湾海峡上的一组群岛,东距台湾本岛约50公里,西离中国大陆约140公里,由90个大小岛屿组成,总面积约为128平方公里,全境均隶属中华民国台湾省澎湖县管辖
  • 至点二至点(亦称至点)可以是太阳在一年之中离地球赤道最远的两个事件中的任何一个,英文的字源(solstice) 来自拉丁文的太阳(sol)和保持直立(sistere),因为在至点时太阳直射的地球纬度是他
  • 艺术电影艺术电影是指一种着重艺术性、而非商业性的电影。大多为独立电影,也有大制片厂制作。艺术电影以特定观众为观影对象,而非普罗大众。因此艺术电影一直被冠上严肃沉重的刻板印象
  • 迪玛希·库达依别列根迪玛希·库达依别列根(哈萨克语:Димаш Құдайберген,转写:Dimash Kudaibergen,1994年5月24日-),本名丁穆罕默德·哈纳托利·库达依别列根(哈萨克语:Дінмұхамм
  • 洛伦兹·奥肯洛伦兹·奥肯(Lorenz Oken,1779年8月1日-1851年8月11日)为德国博物学家。
  • 游戏机游戏游戏机游戏(console game)一种用于娱乐的互动多媒体形式,是相对于街机游戏和电脑游戏的概念。游戏机游戏通过电子游戏机生成的可操作的图像(且常配有音效),并以电视机或等音视频系
  • 2018年冬季奥林匹克运动会花样滑冰比赛2018年冬季奥林匹克运动会花样滑冰比赛将于2018年2月9日至23日在韩国平昌江陵冰上体育场举行。本届赛事共设五个项目(男子 、女子、双人、冰舞、团体)。全部赛程如下表:所有时
  • 保罗·柯索保罗·柯索(英语:Paul Kosok,1896年4月21日-1959年),美国籍考古学家,被认为是最早对秘鲁古文化遗址纳斯卡巨画的秘密进行严肃研究的学者。他的研究工作在1930年代开始,直到他在1959