结构相似性

✍ dations ◷ 2025-08-07 23:16:30 #结构相似性

结构相似性指标(英语:structural similarity index,SSIM index)是一种用以衡量两张数字图像相似程度的指标。当两张图像其中一张为无有损图像,另一张为有损后的图像,二者的结构相似性可以看成是有损图像的图像质量衡量指标。相较于传统所使用的图像质量衡量指标,像是峰值信噪比(英语:PSNR),结构相似性在图像质量的衡量上更能符合人眼对图像质量的判断。

结构相似性的基本观念为自然图像是高度结构化的,亦即在自然图像中相邻像素之间有很强的关系性,而这样的关系性承载了场景中物体的结构信息。人类视觉系统在观看图像时已经很习惯抽取这样的结构性信息。因此,在设计图像质量衡量指标用以衡量图像有损程度时,结构性有损的衡量是很重要的一环。

给定两个信号 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } ,两者的结构相似性定义为:

SSIM ( x , y ) = α β γ {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {y} )=^{alpha }^{beta }^{gamma }}

l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 {displaystyle l(mathbf {x} ,mathbf {y} )={frac {2mu _{x}mu _{y}+C_{1}}{mu _{x}^{2}+mu _{y}^{2}+C_{1}}}} c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 {displaystyle c(mathbf {x} ,mathbf {y} )={frac {2sigma _{x}sigma _{y}+C_{2}}{sigma _{x}^{2}+sigma _{y}^{2}+C_{2}}}} s ( x , y ) = σ x y + C 3 σ x σ y + C 3 {displaystyle s(mathbf {x} ,mathbf {y} )={frac {sigma _{xy}+C_{3}}{sigma _{x}sigma _{y}+C_{3}}}}

其中, l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的亮度, c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的对比度, s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的结构(structure), α > 0 {displaystyle alpha >0} β > 0 {displaystyle beta >0} γ > 0 {displaystyle gamma >0} ,为调整 l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 相对重要性的参数, μ x {displaystyle mu _{x}} μ y {displaystyle mu _{y}} σ x {displaystyle sigma _{x}} σ y {displaystyle sigma _{y}} 分别为 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的平均值和标准差, σ x y {displaystyle sigma _{xy}} x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的协方差, C 1 {displaystyle C_{1}} C 2 {displaystyle C_{2}} C 3 {displaystyle C_{3}} 皆为常量,用以维持 l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 的稳定。

结构相似性指标的值越大,代表两个信号的相似性越高。

试想,若使用全等的两张图片去做SSIM运算,也就是说 μ x = μ y {displaystyle mu _{x}=mu _{y}} σ x = σ y {displaystyle sigma _{x}=sigma _{y}} ,如此一来

SSIM ( x , x ) = 2 μ x 2 + C 1 μ x 2 + μ x 2 + C 1 × 2 σ x 2 + C 2 σ x 2 + σ x 2 + C 2 × σ x x + C 3 σ x σ x + C 3 = 1 {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {x} )={frac {2mu _{x}^{2}+C_{1}}{mu _{x}^{2}+mu _{x}^{2}+C_{1}}}times {frac {2sigma _{x}^{2}+C_{2}}{sigma _{x}^{2}+sigma _{x}^{2}+C_{2}}}times {frac {sigma _{xx}+C_{3}}{sigma _{x}sigma _{x}+C_{3}}}=1}

结构相似性指标具有下列性质:

实际使用时,一般会将参数设为 α = β = γ = 1 {displaystyle alpha =beta =gamma =1} C 3 = C 2 / 2 {displaystyle C_{3}=C_{2}/2} ,得到:

SSIM ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {y} )={frac {(2mu _{x}mu _{y}+C_{1})(2sigma _{xy}+C_{2})}{(mu _{x}^{2}+mu _{y}^{2}+C_{1})(sigma _{x}^{2}+sigma _{y}^{2}+C_{2})}}}

在计算两张图像的结构相似性指标时,会开一个局部性的视窗,一般为 N {displaystyle N} × N {displaystyle N} 的小区块,计算出视窗内信号的结构相似性指标,每次以像素为单位移动视窗,直到整张图像每个位置的局部结构相似性指标都计算完毕。将全部的局部结构相似性指标平均起来即为两张图像的结构相似性指标。

一般认为,结构相似度指标比均方误差(MS)更适合用来判断两张图像的相似度,原因是结构相似性指标同时考虑图片亮度、对比与结构信息,这跟人类的视觉系统的判断基准较为接近。MSE只考虑两张图片的平均亮度误差而不考虑结构化的信息,所以当图片有些微的亮度改变时,MSE改变会很剧烈,但小亮度改变并不会造成人类把两张图片判断成完全不同。

另外一种计算相似度的方法是使用正规化均方根误差(NRMSE),NRMSE是基于MSE的公式,再除上其中一张图像的亮度,这样的处理使得NRMSE对于整体亮度变化比较不敏感,并且让数值落在比较受限的范围内以便于比较,然而NRMSE没有考虑结构化信息的问题依旧存在。

下面使用了五张照片做实验,辅助说明:

对人类的视觉系统来说,Image A、B、C、D 是一群较为相似的图片,Image E 则是与其他图片毫无相关。

这里是使用Image A跟其他图片进行相似度的比较,一共使用三种方法:均方误差(MSE)、正规化方均根差(NRMSE)、结构相似度指标(SSIM)。

然而在上述的比较实验可以发现,只有结构相似度指标能够正确反映这个关系,结构相似性指标在Image B、C、D之中都得到了较高的相似度(其中Image C为负相关),而唯有Image E得到了接近零的相似度。这代表使用结构相似性指标能够知道Image A、B、C、D之间很相似,而Image E跟其他图片不相似。反之,MSE与NRMSE皆无法在结果上反映出Image E与其他图片的差别。

结构相似性指标因其简单而有效,近年来广泛被使用在图像与视频处理的相关应用上,例如图像压缩、图像水印、无线视频流、核磁共振成像等等。

在图像压缩、图像去噪与图像还原等领域,经常使用结构相似性指标来判断方法的好坏。以图像压缩的应用为例,结构相似度用于比较原图与压缩后的图片的差异。原则上希望压缩后的图片不会跟原图差太多,同时压缩后的图片又可以节省空间。如果原图与压缩后图片之间的结构相似度是接近1的代表这是个优秀的压缩方法,反之则是不佳的压缩方法。另外,在图像去噪的应用中,有时会采用人工合成的噪声叠加在图片上,并且设计去噪算法去除人工合成上去的噪声。在这种情况能够使用结构相似度直接判断原图跟去噪后的图片之间有多接近。结构相似度越接近1,代表去噪算法能够成功地把噪声去除并将原图还原出来。

因为结构相似性设计上尽量贴近人类的视觉系统,所以计算结构相似性的概念还能用于识别图片中特定的图样。在这类型的应用,通常需要分类算法对特征的平移、旋转与缩放不敏感,所以会使用CW-SSIM取代原本的结构相似度来进行计算。而根据CW-SSIM的作者的描述使用CW-SSIM搭配支持向量机作为分类器,此方法可以在MNIST数据集上达到95%的结果。

结构相似性指标有其限制,对于图像出现位移、缩放、旋转(皆属于非结构性的有损)的情况无法有效的运作。为解决此问题,另已发展出在小波域进行运算的结构相似性指标,称作复小波结构相似性指标(complex wavelet SSIM,CW-SSIM)。

当图片出现平移、旋转或是缩放时,结构相似度指标会改变得十分剧烈,并很容易将两张类似的图片视为不相似的。原因与在计算SSIM时所使用的局部性视窗有关,平移、旋转或是缩放都会导致视窗内的像素结构完全改变,使SSIM无法正确估计相似度。

下面的实验是使用Image A 跟Image F、G、H计算相似度

可以看到Image A仅向右移30像素就导致了两张图片前后的SSIM为0.11,上述实验足以说明结构相似性指标的确对这些操作很敏感,要解决这类的问题可以使用复小波结构相似性。

多尺度结构相似性(multi-scale SSIM,MS-SSIM)尝试去解决结构相似度里面,依赖特定大小的视窗进行计算的问题,因为如果输入的图片的分辨率不同,用户往往需要更改结构相似性的参数,才能得到较合理的结果。多尺度结构相似性,则是把输入图片经过若干次的低通滤波器与两倍下采样,每次下采样之后都计算一次结构相似度。最后的结果会同时考量所有不同尺寸的图片计算出的结构相似性,由此达到指标能自适应不同分辨率的图片的目的。Multi-Scale SSIM Complex Wavelet SSIM 或是 CW-SSIM的作者认为MS-SSIM能得到比SSIM相等或是更好的评量结果。

结构相异性(structural dissimilarity,DSSIM)正好是结构相似性的相反。当两张图片相等时,结构相异性为0。反之当两张图片很不相似时,结构相异性可以趋近无限大。

结构相似性虽然能大致符合人类的视觉系统的感受,但若图片遇到几何上的转换,例如平移、旋转与缩放时,结构相似性会无法正确描述两张图片的相似程度。因此复小波结构相似性(complex wavelet SSIM,CW-SSIM)针对了这个问题进行了改良,CW-SSIM的作者认为与其使用亮度(magnitude)进行比较,不如用相位来进行比较较具有代表性,因此CW-SSIM会在复小波域中计算区域性的相位,并用相位的差异来计算相似性,公式如下:

其中 c x {displaystyle c_{x}} 是复小波转换后的 x {displaystyle x} 信号,而 c y {displaystyle c_{y}} 是复小波转换后的 y {displaystyle y} 信号,另外 K {displaystyle K} 是用于稳定数值的一个常量如同结构相似性,CW-SSIM的最大值为1,但是不同于结构相似性,CW-SSIM的最小值为0。

相关

  • 单位矩阵向量 · 向量空间  · 行列式  · 矩阵标量 · 向量 · 向量空间 · 向量投影 · 外积 · 内积 · 数量积 · 向量积矩阵 · 行列式 · 线性方程组 · 秩 · 核 · 迹
  • 杰克·所罗门杰克·所罗门(英语:Jack Solomon)为一位美国音讯工程师。他曾赢得了1次奥斯卡最佳音响效果奖,并在这个奖项上获得了5次提名。自1953年至1991年间他参与了90多部电影的制作。所罗
  • 拉库马·希拉尼拉库马·希拉尼 (Rajkumar Hirani,1962年11月22日-)是一名印度电影导演、编剧和剪接师。他获得过印度国家电影奖和印度电影观众奖。最有名的作品是2009年的喜剧片《三个傻瓜》
  • 乐之路 (电影)《乐之路》(英语:),2011年台湾电影,是一部剧情片。由吴建豪、洪天祥、涂百锋、隆宸翰、弦子(歌手-张弦子)、洪金宝、张魁、柯有纶、吴中天、韩琳、莫子仪、徐婕儿、藤冈靛(日本人)、
  • 宁波植物园宁波植物园位于浙江省宁波市镇海区,毗邻宁波大学植物园校区,占地322公顷。 2011年9月26日宁波植物园开工,于2016年9月28日完成第一期工程并对外开放120公顷的区域。全园分为3个
  • 米泽勒峰坐标:44°55′52″N 6°06′19″E / 44.93111°N 6.10528°E / 44.93111; 6.10528米泽勒峰(法语:Roche de la Muzelle),是法国的山体,位于该国东南部,由伊泽尔省负责管辖,属于多芬阿
  • 天主教姆万扎总教区天主教姆万扎总教区(拉丁语:Archidioecesis Mvanzaënsis;斯瓦希里语:Jimbo Kuu la Mwanza)是坦桑尼亚一个罗马天主教教省总教区,下辖七个教区。此总教区是该国六个总教区之一。1894年7月13日设宗座代牧区,1953年3月25日升为教区,1987年11月18日升为总教区。总教区位于姆万扎区中部,2010年有教友627,000人(占辖区总人口24.1%)、廿七个堂区、七十三名司铎。现任总主教为勒内·良纳·恩宽德(英语:Renatus Leonard Nkwande)。
  • 拉米伊之战1706年5月23日爆发的拉米伊之战,是西班牙王位继承战争期间的一场战斗。对于大同盟成员奥地利、英格兰与荷兰共和国而言,这场战斗是在1705年对法国国王路易十四的波旁军队展开的一系列非决定性战役之后发生的。虽然同盟军在那一年占领了巴塞罗那,但他们被迫放弃了在摩泽尔河的战线、在西属尼德兰受阻并在意大利北部战败。尽管对手遭受挫折,路易十四仍然希望达成和平,但条件必须是合理的。因此,为了保持他们的势头,法国及其盟友在1706年发动了攻势。路易十四的将领们在这场军事行动中有着良好的开端:在意大利,旺多姆元帅于4月
  • 于尔根·阿恩特于尔根·阿恩特(德语:Jürgen Arndt,20世纪-),德国男子赛艇运动员。他曾代表东德参加1975年世界赛艇锦标赛,获得男子八人单桨有舵手金牌。
  • 德米特里·里亚贝舍夫德米特里·伊万诺维奇·里亚贝舍夫(俄语:Дми́трий Ива́нович Ря́бышев,1894年2月11日(23日)-1985年11月18日)苏联陆军中将,1917年加入布尔什维克党。苏德战争时期,担任第8军军长;后升任南方方面军(下辖第12、第18、第9集团军)的司令员,参加顿巴斯战役。