结构相似性

✍ dations ◷ 2025-08-28 21:48:19 #结构相似性

结构相似性指标(英语:structural similarity index,SSIM index)是一种用以衡量两张数字图像相似程度的指标。当两张图像其中一张为无有损图像,另一张为有损后的图像,二者的结构相似性可以看成是有损图像的图像质量衡量指标。相较于传统所使用的图像质量衡量指标,像是峰值信噪比(英语:PSNR),结构相似性在图像质量的衡量上更能符合人眼对图像质量的判断。

结构相似性的基本观念为自然图像是高度结构化的,亦即在自然图像中相邻像素之间有很强的关系性,而这样的关系性承载了场景中物体的结构信息。人类视觉系统在观看图像时已经很习惯抽取这样的结构性信息。因此,在设计图像质量衡量指标用以衡量图像有损程度时,结构性有损的衡量是很重要的一环。

给定两个信号 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } ,两者的结构相似性定义为:

SSIM ( x , y ) = α β γ {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {y} )=^{alpha }^{beta }^{gamma }}

l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 {displaystyle l(mathbf {x} ,mathbf {y} )={frac {2mu _{x}mu _{y}+C_{1}}{mu _{x}^{2}+mu _{y}^{2}+C_{1}}}} c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 {displaystyle c(mathbf {x} ,mathbf {y} )={frac {2sigma _{x}sigma _{y}+C_{2}}{sigma _{x}^{2}+sigma _{y}^{2}+C_{2}}}} s ( x , y ) = σ x y + C 3 σ x σ y + C 3 {displaystyle s(mathbf {x} ,mathbf {y} )={frac {sigma _{xy}+C_{3}}{sigma _{x}sigma _{y}+C_{3}}}}

其中, l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的亮度, c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的对比度, s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的结构(structure), α > 0 {displaystyle alpha >0} β > 0 {displaystyle beta >0} γ > 0 {displaystyle gamma >0} ,为调整 l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 相对重要性的参数, μ x {displaystyle mu _{x}} μ y {displaystyle mu _{y}} σ x {displaystyle sigma _{x}} σ y {displaystyle sigma _{y}} 分别为 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的平均值和标准差, σ x y {displaystyle sigma _{xy}} x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的协方差, C 1 {displaystyle C_{1}} C 2 {displaystyle C_{2}} C 3 {displaystyle C_{3}} 皆为常量,用以维持 l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 的稳定。

结构相似性指标的值越大,代表两个信号的相似性越高。

试想,若使用全等的两张图片去做SSIM运算,也就是说 μ x = μ y {displaystyle mu _{x}=mu _{y}} σ x = σ y {displaystyle sigma _{x}=sigma _{y}} ,如此一来

SSIM ( x , x ) = 2 μ x 2 + C 1 μ x 2 + μ x 2 + C 1 × 2 σ x 2 + C 2 σ x 2 + σ x 2 + C 2 × σ x x + C 3 σ x σ x + C 3 = 1 {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {x} )={frac {2mu _{x}^{2}+C_{1}}{mu _{x}^{2}+mu _{x}^{2}+C_{1}}}times {frac {2sigma _{x}^{2}+C_{2}}{sigma _{x}^{2}+sigma _{x}^{2}+C_{2}}}times {frac {sigma _{xx}+C_{3}}{sigma _{x}sigma _{x}+C_{3}}}=1}

结构相似性指标具有下列性质:

实际使用时,一般会将参数设为 α = β = γ = 1 {displaystyle alpha =beta =gamma =1} C 3 = C 2 / 2 {displaystyle C_{3}=C_{2}/2} ,得到:

SSIM ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {y} )={frac {(2mu _{x}mu _{y}+C_{1})(2sigma _{xy}+C_{2})}{(mu _{x}^{2}+mu _{y}^{2}+C_{1})(sigma _{x}^{2}+sigma _{y}^{2}+C_{2})}}}

在计算两张图像的结构相似性指标时,会开一个局部性的视窗,一般为 N {displaystyle N} × N {displaystyle N} 的小区块,计算出视窗内信号的结构相似性指标,每次以像素为单位移动视窗,直到整张图像每个位置的局部结构相似性指标都计算完毕。将全部的局部结构相似性指标平均起来即为两张图像的结构相似性指标。

一般认为,结构相似度指标比均方误差(MS)更适合用来判断两张图像的相似度,原因是结构相似性指标同时考虑图片亮度、对比与结构信息,这跟人类的视觉系统的判断基准较为接近。MSE只考虑两张图片的平均亮度误差而不考虑结构化的信息,所以当图片有些微的亮度改变时,MSE改变会很剧烈,但小亮度改变并不会造成人类把两张图片判断成完全不同。

另外一种计算相似度的方法是使用正规化均方根误差(NRMSE),NRMSE是基于MSE的公式,再除上其中一张图像的亮度,这样的处理使得NRMSE对于整体亮度变化比较不敏感,并且让数值落在比较受限的范围内以便于比较,然而NRMSE没有考虑结构化信息的问题依旧存在。

下面使用了五张照片做实验,辅助说明:

对人类的视觉系统来说,Image A、B、C、D 是一群较为相似的图片,Image E 则是与其他图片毫无相关。

这里是使用Image A跟其他图片进行相似度的比较,一共使用三种方法:均方误差(MSE)、正规化方均根差(NRMSE)、结构相似度指标(SSIM)。

然而在上述的比较实验可以发现,只有结构相似度指标能够正确反映这个关系,结构相似性指标在Image B、C、D之中都得到了较高的相似度(其中Image C为负相关),而唯有Image E得到了接近零的相似度。这代表使用结构相似性指标能够知道Image A、B、C、D之间很相似,而Image E跟其他图片不相似。反之,MSE与NRMSE皆无法在结果上反映出Image E与其他图片的差别。

结构相似性指标因其简单而有效,近年来广泛被使用在图像与视频处理的相关应用上,例如图像压缩、图像水印、无线视频流、核磁共振成像等等。

在图像压缩、图像去噪与图像还原等领域,经常使用结构相似性指标来判断方法的好坏。以图像压缩的应用为例,结构相似度用于比较原图与压缩后的图片的差异。原则上希望压缩后的图片不会跟原图差太多,同时压缩后的图片又可以节省空间。如果原图与压缩后图片之间的结构相似度是接近1的代表这是个优秀的压缩方法,反之则是不佳的压缩方法。另外,在图像去噪的应用中,有时会采用人工合成的噪声叠加在图片上,并且设计去噪算法去除人工合成上去的噪声。在这种情况能够使用结构相似度直接判断原图跟去噪后的图片之间有多接近。结构相似度越接近1,代表去噪算法能够成功地把噪声去除并将原图还原出来。

因为结构相似性设计上尽量贴近人类的视觉系统,所以计算结构相似性的概念还能用于识别图片中特定的图样。在这类型的应用,通常需要分类算法对特征的平移、旋转与缩放不敏感,所以会使用CW-SSIM取代原本的结构相似度来进行计算。而根据CW-SSIM的作者的描述使用CW-SSIM搭配支持向量机作为分类器,此方法可以在MNIST数据集上达到95%的结果。

结构相似性指标有其限制,对于图像出现位移、缩放、旋转(皆属于非结构性的有损)的情况无法有效的运作。为解决此问题,另已发展出在小波域进行运算的结构相似性指标,称作复小波结构相似性指标(complex wavelet SSIM,CW-SSIM)。

当图片出现平移、旋转或是缩放时,结构相似度指标会改变得十分剧烈,并很容易将两张类似的图片视为不相似的。原因与在计算SSIM时所使用的局部性视窗有关,平移、旋转或是缩放都会导致视窗内的像素结构完全改变,使SSIM无法正确估计相似度。

下面的实验是使用Image A 跟Image F、G、H计算相似度

可以看到Image A仅向右移30像素就导致了两张图片前后的SSIM为0.11,上述实验足以说明结构相似性指标的确对这些操作很敏感,要解决这类的问题可以使用复小波结构相似性。

多尺度结构相似性(multi-scale SSIM,MS-SSIM)尝试去解决结构相似度里面,依赖特定大小的视窗进行计算的问题,因为如果输入的图片的分辨率不同,用户往往需要更改结构相似性的参数,才能得到较合理的结果。多尺度结构相似性,则是把输入图片经过若干次的低通滤波器与两倍下采样,每次下采样之后都计算一次结构相似度。最后的结果会同时考量所有不同尺寸的图片计算出的结构相似性,由此达到指标能自适应不同分辨率的图片的目的。Multi-Scale SSIM Complex Wavelet SSIM 或是 CW-SSIM的作者认为MS-SSIM能得到比SSIM相等或是更好的评量结果。

结构相异性(structural dissimilarity,DSSIM)正好是结构相似性的相反。当两张图片相等时,结构相异性为0。反之当两张图片很不相似时,结构相异性可以趋近无限大。

结构相似性虽然能大致符合人类的视觉系统的感受,但若图片遇到几何上的转换,例如平移、旋转与缩放时,结构相似性会无法正确描述两张图片的相似程度。因此复小波结构相似性(complex wavelet SSIM,CW-SSIM)针对了这个问题进行了改良,CW-SSIM的作者认为与其使用亮度(magnitude)进行比较,不如用相位来进行比较较具有代表性,因此CW-SSIM会在复小波域中计算区域性的相位,并用相位的差异来计算相似性,公式如下:

其中 c x {displaystyle c_{x}} 是复小波转换后的 x {displaystyle x} 信号,而 c y {displaystyle c_{y}} 是复小波转换后的 y {displaystyle y} 信号,另外 K {displaystyle K} 是用于稳定数值的一个常量如同结构相似性,CW-SSIM的最大值为1,但是不同于结构相似性,CW-SSIM的最小值为0。

相关

  • 热运动热运动是自然界中独立存在的基本运动形式之一,有巨大数量微观粒子(分子、原子、电子或点阵粒子等)参与的永不停息的无规则运动,并伴有频繁碰撞。宏观物质由巨大数量的微观粒子构
  • 伯灵格姆伯灵格姆(英文:Burlingame),是美国加利福尼亚州圣马特奥县内的一个城市,位于旧金山半岛东岸,与旧金山湾有着相当长度的海岸线。该市是以曾任美国驻华公使的外交官蒲安臣 (Anson Bu
  • 杨实杨实(?-?),字真卿,是第五任播州土司,其活跃年代位于五代末年至北宋初年。杨实是第四代土司杨三公的次子。杨三公死后,杨实的长兄杨宝应该继承土司之位。但杨宝自认为才能不如杨实,遂让
  • 南北朝君主列表本表主要列出南北朝时期各政权君主,及追尊未实际统治、不被广泛承认的君主。南朝:刘裕建立的“宋”政权、萧道成建立的“齐”政权、萧衍建立的“梁”政权、陈霸先建立的“陈”
  • 朱右朱右(1314年-1376年),字伯贤,自号邹阳子。临海人。明朝历史学家。生于元仁宗延佑元年(1314年),学于陈德永,元末从陈叔夏、林景和游,又从李孝光习文法,尤长《书》《礼》《春秋》。历官慈
  • 台风柏加 罗</noinclude>台风柏加(英语:Typhoon Paka)是1997年太平洋飓风季和台风季的最后一个热带气
  • 伊格尔坎帕斯山坐标:46°35′21″N 9°49′23″E / 46.58929°N 9.82311°E / 46.58929; 9.82311伊格尔坎帕斯山(Igl Compass),是瑞士的山峰,位于该国东南部,由格劳宾登州负责管辖,属于阿尔布拉山
  • 加泰罗尼亚是的我们能加泰罗尼亚是的我们能(加泰罗尼亚语:Catalunya Sí que es Pot,缩写为CSQP)是加泰罗尼亚的一个已不存在的左翼选举联盟,由我们能、为了加泰罗尼亚倡议绿党和联合与替代左翼组成。该联盟成立于2015年7月15日以应对于2015年9月27日的2015年加泰罗尼亚议会选举。在2015年加泰罗尼亚议会选举中,该联盟获得366494张选票(得票率8.94%)和11个议会席位。
  • 阿兰·本特森阿兰·本特森(丹麦语:Allan Bentsen,1968年8月21日-),丹麦男子乒乓球运动员。他曾获得2005年欧洲乒乓球锦标赛男子团体冠军。他也曾代表国家参加2012年夏季奥林匹克运动会。
  • 西周威公西周威公,姓姬,据唐代陆德明《庄子释文》,本名灶,是中国战国时期小国西周的第二任国君,西周桓公之子。杨宽《战国史料编年辑证》考订为前414年-前367年,在位48年。周显王二年(前367年)西周威公死后,子惠公继位,威公少子公子根与其争立,后在巩邑(今河南省巩义市西南)建立东周国,即东周惠公,自此西周、东周分裂。