超分辨率成像

✍ dations ◷ 2025-07-29 13:17:27 #图像处理,光学,信号处理

超分辨率成像(Super-resolution imaging,缩写SR),是一种提高影片分辨率的技术。在一些称为“光学SR”的SR技术中,系统的衍射极限被超越;而在其他所谓的“几何SR”中,数位感光元件的分辨率因而提高。超分辨率成像技术用于一般图像处理和超高分辨率显微镜。

在2000年以来,小波变换的技术被使用在提高影像的分辨率。

DASR (Demirel-Anbarjafari Super Resolution)是使用离散小波变换(Discrete wavelet transform)来进行超分辨率成像的方法。当时,超分辨率成像通常是以内插影像的像素值来完成,而作者认为,对影像中的高频部分进行内插是造成品质降低的主要理由,因为内插高频部分让物体的边界变得模糊且平滑,于是提出使用离散小波变换的算法来减轻这个问题。

影像可以表示成二维的讯号,经过二维的离散小波变换,可以被分解成四个不同频段的影像,分别是:low-low (LL), low-high (LH), high-low (HL) 和 high-high (HH),各自代表在不同维度是高频或低频,举例来说,LH就是在原影像的第一维(x轴)是低频而在第二维(y轴)是高频的分解后结果。

将原影像分解为LL, LH, HL和HH后,DASR会对高频段的三张影像LH, HL和HH分别做内插,以产生高分辨率的LH, HL和HH。这是由于作者认为,将不同的高频影像各自做内插,能够避免彼此干扰,进而保留更多的高频资讯。DASR不会内插LL,而是内插原图来当作高分辨率的LL,因为原图比LL含有更多资讯。取得四张高分辨率的LL, LH, HL和HH后,DASR将四张影像经过逆离散小波变换(Inversed discrete wavelet transform),来生成最终的成像结果。

DASR当时在 Lena, Elaine, Pepper和Baboon上取得State-of-the-art的结果,并超越传统使用内插和其它使用离散小波变换的方法。

随着神经网络的流行,相关技术也被应用在提高图片分辨率。

SRCNN ( Super-resolution convolution neural network )是一个神经网络,输入是一个低分辨率(视觉上)的图像,而输出是一个高分辨率的图像,这里需要注意的是,在将图像喂进神经网络前,需要先经过一个预处理bicubic interpolation,将原始图片变成跟想要的高分辨率图像一样大小后,再喂进神经网络中。而神经网络做的事情,主要分成三个步骤区块特征抽取与表达(Patch extraction and representation)、非线性对应(non-linear mapping)以及重建(reconstruction)。

这一步就如同一般的CNN ( convolution neural network ),只是没有经过max-pooling,公式如下。

Y {\displaystyle Y} 代表已经经过bicubic interpolation的图像, F 1 ( Y ) {\displaystyle F_{1}(Y)} 则为这层神经网络的输出, W 1 {\displaystyle W_{1}} 代表 n 1 {\displaystyle n_{1}} c × f 1 × f 1 {\displaystyle c\times f_{1}\times f_{1}} 的filter( c {\displaystyle c} 是图像的channel数量,而 f 1 {\displaystyle f_{1}} 则为filter的大小), {\displaystyle \ast } 代表卷积(convolution), B 1 {\displaystyle B_{1}} 是偏移量(bias),最后的 max {\displaystyle \max } 则代表激活函数RELU。

非线性对应,基本上就是持续利用一般CNN的方式将前一步每一块的 n 1 {\displaystyle n_{1}} 维的特征向量,分别转换成 n 2 {\displaystyle n_{2}} 维的特征向量,公式如下。

在重建的步骤中,我们要考虑的是每一个像素所要的值是多少,这个步骤可以想成在多个相关的高维度的特征向量中,取一个平均,很凑巧的,这刚好也很像一般的卷积层(convolution layer),公式如下。

在SRCNN中所采用的差异函数(Loss Function)是简单的平均方根差(Mean Square Error),定义为重建后的相片每一个像素与真正的图片的每一个像素的差异,公式如下。

θ {\displaystyle \theta } 为SRCNN的参数, F ( Y i ; θ ) {\displaystyle F(Y_{i};\theta )} 为给定的SRCNN重建 Y i {\displaystyle Y_{i}} 的图像, X i {\displaystyle X_{i}} 则为真正的高分辨率图像, n {\displaystyle n} 为拿来训练神经网络的图像数量或者是一个batch中所有的图像数量。

这篇论文提供了一个做法,可以应用在图像风格转移(Style Transfer)以及超高分辨率(Super-resolution)。

整个系统由两个神经网络组成,其中一个是图像转移网络 f W {\displaystyle f_{W}} ,另一个则是可以用来定义各种差异的差异网络 ϕ {\displaystyle \phi }

图像转移网络的输入为一张图像,输出也是一张图像,而这个网络的参数以 W {\displaystyle W} 表示。

这个图像转移网络由5个residual block所组成,而所有非residual的convolution layer后面都会接上batch normalization。激活函数(activation function)的部分,除了在最后的输出层(output layer)使用scaled tanh使得输出的数值在0到255之间,其他都是使用RELU。

convolution layer的filter(kernel)的数量上,第一层和最后一层使用 9 × 9 {\displaystyle 9\times 9} 个,其他层则是使用 3 × 3 {\displaystyle 3\times 3} 个。

差异网络定义了各种差异函数(loss function),输入为两张图像,一张来自图像转移网络,一张则是真正的高分辨率影像,输出为一个实数(scalar)。

而这篇论文所使用的差异网络是16层的VGG网络,并事先利用Image Net训练过。差异函数的部分,使用了两个不同于传统简单的差异函数。(CHW代表feature map各个维度的数值)

这个差异函数的设计理念在于,当我们在看两张图片像不像时,我们并不是一个一个像素的比较,而是比较两张图片中的特征像不像。因此,他拿差异网络中某一层的输出,当作一个图片特征值,再以两张图片的特征值的Euclidean Distance当作差异。

除了一般的特征以外,我们也会需要图像转移网络正确的重建颜色、材质等等的内容,因此必须再加上风格重建差异函数。在定义风格重建差异之前,我们先定义Gram矩阵 G j ϕ ( x ) c , c {\displaystyle G_{j}^{\phi }(x)_{c,c'}}

接着差异函数就可以定义为

而一般比较每一个像素差异的差异函数,则可以写为

有了这两个网络后,训练图像转移网络的方法则是最小化各式差异函数的权重和(weighted sum),优化的方法是梯度下降法(Stochastic Gradient Descent(l()是差异函数(loss function)))。

这篇论文在高分辨率图像这个传统问题上,给了一个快速且有效的解法,快速的原因在于,在遇到一张新的图片时,只需要把图像喂进图像转移网络就好(一次forward pass)。而在结果上,也大大的超越了之前的做法(一样使用深度神经网络)SRCNN。

相关

  • 相片相片,亦称照片,是从摄影得出来的影像,始源于1826年。 通常由感光纸张收集光子而产生出来,相片成相的原理是透过光的化学作用在感光的底片、纸张、玻璃或金属等辐射敏感材料上产
  • 罗宾·沃伦罗宾·沃伦(英语:Robin Warren, 1937年6月11日-)是位澳洲病理学家。1937年生于阿德雷得于1979年重新发现幽门螺旋杆菌。在阿德莱德大学取得医学学位。1967年,他被允许进入澳洲病
  • 荷尔斯泰因荷尔斯泰因地区位于易北河和艾德河之间,是德国北部石勒苏益格-荷尔斯泰因州的一部分。此地在811–1474年由荷尔斯泰因伯爵国统治,随后(1474–1866)由荷尔斯泰因公国统治,是神圣
  • 禸部禸部,为汉字索引中的部首之一,康熙字典214个部首中的第一百一十四个(五划的则为第二十个)。就繁体和简体中文中,禸部归于五划部首。以下方为部字。且无其他部首可用者将部首归为
  • 德里诺河坐标:40°17′12″N 20°2′32″E / 40.28667°N 20.04222°E / 40.28667; 20.04222德里诺河(希腊语:Δρίνος),是东南欧的河流,位于阿尔巴尼亚南部和希腊西北部,是维约萨河的
  • 毛吉毛吉(1426年-1465年),字宗吉,浙江余姚县人。明朝官员,同进士出身。景泰五年(1454年)毛吉登甲戌科进士,授刑部广东司主事。因疾失朝,下锦衣卫狱,被巨梃打至“肉溃见骨”。天顺五年(1461年
  • 杰姬·罗森杰克琳·谢丽尔·罗森(英语:Jacklyn Sheryl Rosen,旧姓斯佩克托尔,1957年8月2日-)是一位美国政治家,她从2017年起在美国众议院中代表内华达州的第3国会选区。她在2018年当选为美国
  • 初吻 (1980年电影)初吻(La Boum)是1980年的法国喜剧电影,由克劳德·皮诺托(英语:Claude Pinoteau)导演,苏菲·玛索担任女主角,也是她首次演出的电影。剧本是由丹尼尔·汤普森(英语:Danièle Thompson)及
  • 科尼2012《科尼2012》(Kony 2012)是一部由Invisible Children Inc拍摄的记录片,于2012年3月5号发布在YouTube上。这部纪录片的目的是使国际刑事法院逃犯,乌干达反政府武装头目约瑟夫·科
  • 2020年巴库胜利阅兵2020年巴库胜利阅兵(阿塞拜疆语:Qələbə Paradı / Zəfər Paradı)于2020年12月10日在阿塞拜疆首都巴库的自由广场举行,庆祝阿塞拜疆军队于2020年纳戈尔诺-卡拉巴赫战争获胜