结构相似性

✍ dations ◷ 2025-06-18 03:16:29 #结构相似性

结构相似性指标(英语:structural similarity index,SSIM index)是一种用以衡量两张数字图像相似程度的指标。当两张图像其中一张为无有损图像,另一张为有损后的图像,二者的结构相似性可以看成是有损图像的图像质量衡量指标。相较于传统所使用的图像质量衡量指标,像是峰值信噪比(英语:PSNR),结构相似性在图像质量的衡量上更能符合人眼对图像质量的判断。

结构相似性的基本观念为自然图像是高度结构化的,亦即在自然图像中相邻像素之间有很强的关系性,而这样的关系性承载了场景中物体的结构信息。人类视觉系统在观看图像时已经很习惯抽取这样的结构性信息。因此,在设计图像质量衡量指标用以衡量图像有损程度时,结构性有损的衡量是很重要的一环。

给定两个信号 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } ,两者的结构相似性定义为:

SSIM ( x , y ) = α β γ {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {y} )=^{alpha }^{beta }^{gamma }}

l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 {displaystyle l(mathbf {x} ,mathbf {y} )={frac {2mu _{x}mu _{y}+C_{1}}{mu _{x}^{2}+mu _{y}^{2}+C_{1}}}} c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 {displaystyle c(mathbf {x} ,mathbf {y} )={frac {2sigma _{x}sigma _{y}+C_{2}}{sigma _{x}^{2}+sigma _{y}^{2}+C_{2}}}} s ( x , y ) = σ x y + C 3 σ x σ y + C 3 {displaystyle s(mathbf {x} ,mathbf {y} )={frac {sigma _{xy}+C_{3}}{sigma _{x}sigma _{y}+C_{3}}}}

其中, l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的亮度, c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的对比度, s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 比较 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的结构(structure), α > 0 {displaystyle alpha >0} β > 0 {displaystyle beta >0} γ > 0 {displaystyle gamma >0} ,为调整 l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 相对重要性的参数, μ x {displaystyle mu _{x}} μ y {displaystyle mu _{y}} σ x {displaystyle sigma _{x}} σ y {displaystyle sigma _{y}} 分别为 x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的平均值和标准差, σ x y {displaystyle sigma _{xy}} x {displaystyle mathbf {x} } y {displaystyle mathbf {y} } 的协方差, C 1 {displaystyle C_{1}} C 2 {displaystyle C_{2}} C 3 {displaystyle C_{3}} 皆为常量,用以维持 l ( x , y ) {displaystyle l(mathbf {x} ,mathbf {y} )} c ( x , y ) {displaystyle c(mathbf {x} ,mathbf {y} )} s ( x , y ) {displaystyle s(mathbf {x} ,mathbf {y} )} 的稳定。

结构相似性指标的值越大,代表两个信号的相似性越高。

试想,若使用全等的两张图片去做SSIM运算,也就是说 μ x = μ y {displaystyle mu _{x}=mu _{y}} σ x = σ y {displaystyle sigma _{x}=sigma _{y}} ,如此一来

SSIM ( x , x ) = 2 μ x 2 + C 1 μ x 2 + μ x 2 + C 1 × 2 σ x 2 + C 2 σ x 2 + σ x 2 + C 2 × σ x x + C 3 σ x σ x + C 3 = 1 {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {x} )={frac {2mu _{x}^{2}+C_{1}}{mu _{x}^{2}+mu _{x}^{2}+C_{1}}}times {frac {2sigma _{x}^{2}+C_{2}}{sigma _{x}^{2}+sigma _{x}^{2}+C_{2}}}times {frac {sigma _{xx}+C_{3}}{sigma _{x}sigma _{x}+C_{3}}}=1}

结构相似性指标具有下列性质:

实际使用时,一般会将参数设为 α = β = γ = 1 {displaystyle alpha =beta =gamma =1} C 3 = C 2 / 2 {displaystyle C_{3}=C_{2}/2} ,得到:

SSIM ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) {displaystyle {text{SSIM}}(mathbf {x} ,mathbf {y} )={frac {(2mu _{x}mu _{y}+C_{1})(2sigma _{xy}+C_{2})}{(mu _{x}^{2}+mu _{y}^{2}+C_{1})(sigma _{x}^{2}+sigma _{y}^{2}+C_{2})}}}

在计算两张图像的结构相似性指标时,会开一个局部性的视窗,一般为 N {displaystyle N} × N {displaystyle N} 的小区块,计算出视窗内信号的结构相似性指标,每次以像素为单位移动视窗,直到整张图像每个位置的局部结构相似性指标都计算完毕。将全部的局部结构相似性指标平均起来即为两张图像的结构相似性指标。

一般认为,结构相似度指标比均方误差(MS)更适合用来判断两张图像的相似度,原因是结构相似性指标同时考虑图片亮度、对比与结构信息,这跟人类的视觉系统的判断基准较为接近。MSE只考虑两张图片的平均亮度误差而不考虑结构化的信息,所以当图片有些微的亮度改变时,MSE改变会很剧烈,但小亮度改变并不会造成人类把两张图片判断成完全不同。

另外一种计算相似度的方法是使用正规化均方根误差(NRMSE),NRMSE是基于MSE的公式,再除上其中一张图像的亮度,这样的处理使得NRMSE对于整体亮度变化比较不敏感,并且让数值落在比较受限的范围内以便于比较,然而NRMSE没有考虑结构化信息的问题依旧存在。

下面使用了五张照片做实验,辅助说明:

对人类的视觉系统来说,Image A、B、C、D 是一群较为相似的图片,Image E 则是与其他图片毫无相关。

这里是使用Image A跟其他图片进行相似度的比较,一共使用三种方法:均方误差(MSE)、正规化方均根差(NRMSE)、结构相似度指标(SSIM)。

然而在上述的比较实验可以发现,只有结构相似度指标能够正确反映这个关系,结构相似性指标在Image B、C、D之中都得到了较高的相似度(其中Image C为负相关),而唯有Image E得到了接近零的相似度。这代表使用结构相似性指标能够知道Image A、B、C、D之间很相似,而Image E跟其他图片不相似。反之,MSE与NRMSE皆无法在结果上反映出Image E与其他图片的差别。

结构相似性指标因其简单而有效,近年来广泛被使用在图像与视频处理的相关应用上,例如图像压缩、图像水印、无线视频流、核磁共振成像等等。

在图像压缩、图像去噪与图像还原等领域,经常使用结构相似性指标来判断方法的好坏。以图像压缩的应用为例,结构相似度用于比较原图与压缩后的图片的差异。原则上希望压缩后的图片不会跟原图差太多,同时压缩后的图片又可以节省空间。如果原图与压缩后图片之间的结构相似度是接近1的代表这是个优秀的压缩方法,反之则是不佳的压缩方法。另外,在图像去噪的应用中,有时会采用人工合成的噪声叠加在图片上,并且设计去噪算法去除人工合成上去的噪声。在这种情况能够使用结构相似度直接判断原图跟去噪后的图片之间有多接近。结构相似度越接近1,代表去噪算法能够成功地把噪声去除并将原图还原出来。

因为结构相似性设计上尽量贴近人类的视觉系统,所以计算结构相似性的概念还能用于识别图片中特定的图样。在这类型的应用,通常需要分类算法对特征的平移、旋转与缩放不敏感,所以会使用CW-SSIM取代原本的结构相似度来进行计算。而根据CW-SSIM的作者的描述使用CW-SSIM搭配支持向量机作为分类器,此方法可以在MNIST数据集上达到95%的结果。

结构相似性指标有其限制,对于图像出现位移、缩放、旋转(皆属于非结构性的有损)的情况无法有效的运作。为解决此问题,另已发展出在小波域进行运算的结构相似性指标,称作复小波结构相似性指标(complex wavelet SSIM,CW-SSIM)。

当图片出现平移、旋转或是缩放时,结构相似度指标会改变得十分剧烈,并很容易将两张类似的图片视为不相似的。原因与在计算SSIM时所使用的局部性视窗有关,平移、旋转或是缩放都会导致视窗内的像素结构完全改变,使SSIM无法正确估计相似度。

下面的实验是使用Image A 跟Image F、G、H计算相似度

可以看到Image A仅向右移30像素就导致了两张图片前后的SSIM为0.11,上述实验足以说明结构相似性指标的确对这些操作很敏感,要解决这类的问题可以使用复小波结构相似性。

多尺度结构相似性(multi-scale SSIM,MS-SSIM)尝试去解决结构相似度里面,依赖特定大小的视窗进行计算的问题,因为如果输入的图片的分辨率不同,用户往往需要更改结构相似性的参数,才能得到较合理的结果。多尺度结构相似性,则是把输入图片经过若干次的低通滤波器与两倍下采样,每次下采样之后都计算一次结构相似度。最后的结果会同时考量所有不同尺寸的图片计算出的结构相似性,由此达到指标能自适应不同分辨率的图片的目的。Multi-Scale SSIM Complex Wavelet SSIM 或是 CW-SSIM的作者认为MS-SSIM能得到比SSIM相等或是更好的评量结果。

结构相异性(structural dissimilarity,DSSIM)正好是结构相似性的相反。当两张图片相等时,结构相异性为0。反之当两张图片很不相似时,结构相异性可以趋近无限大。

结构相似性虽然能大致符合人类的视觉系统的感受,但若图片遇到几何上的转换,例如平移、旋转与缩放时,结构相似性会无法正确描述两张图片的相似程度。因此复小波结构相似性(complex wavelet SSIM,CW-SSIM)针对了这个问题进行了改良,CW-SSIM的作者认为与其使用亮度(magnitude)进行比较,不如用相位来进行比较较具有代表性,因此CW-SSIM会在复小波域中计算区域性的相位,并用相位的差异来计算相似性,公式如下:

其中 c x {displaystyle c_{x}} 是复小波转换后的 x {displaystyle x} 信号,而 c y {displaystyle c_{y}} 是复小波转换后的 y {displaystyle y} 信号,另外 K {displaystyle K} 是用于稳定数值的一个常量如同结构相似性,CW-SSIM的最大值为1,但是不同于结构相似性,CW-SSIM的最小值为0。

相关

  • Bsub2/sub血栓素B2是血栓素A2的一种不活跃的产物,不像血栓素A2,其对血小板激活及血小板聚集没有影响。医学导航:遗传代谢缺陷代谢、k,c/g/r/p/y/i,f/h/s/l/o/e,a/u,n,mk,cgrp/y/i,f/h/s/
  • 齿龈齿龈音(舌尖中音)是舌尖音的一种。发音时,舌尖接触牙龈。如现代标准汉语的 d、t、n、l。英语的/t/,/d/塞音是齿龈塞音,但法语、俄语等语言的舌尖塞音会是齿音。得到IPA确认的齿龈
  • 珍·亚瑟珍·亚瑟(英语:Jean Arthur,1900年10月17日-1991年6月19日)是一名美国女演员,从她20世纪20年代拍摄无声片一直到1953年拍摄最后一部影片为止她一共拍摄了接近100部电影。在无声片
  • 切希尔县切希尔县(Cheshire County, Hampshire)是美国新罕布什尔州西南部的一个县,西邻佛蒙特州,南邻马萨诸塞州。面积1,888平方公里。根据美国2000年人口普查,共有人口73,825人。县治基
  • K-pop Star 6由各公司派出的选手,三队一组进行比赛,第一名晋升为TOP10,第二名需与别组的第二名进行再对抗(赢的晋升为TOP10,输的就被淘汰),第三名则淘汰(YG vs JYP vs Antenna Music)Kriesha Ti
  • 坦普尔酒吧区坐标:53°20′44″N 6°15′46″W / 53.34556°N 6.26278°W / 53.34556; -6.26278坦普尔酒吧区(英语:Temple Bar,爱尔兰语:Barra an Teampaill)是爱尔兰首都都柏林市中心利菲河南
  • 2018年德国基督教民主联盟党领袖选举安格拉·默克尔 2018年德国基督教民主联盟党领袖选举于12月7日至8日在汉堡的第31届代表大会上举行。现任德国总理兼党领袖安格拉·默克尔于2018年10月宣布不会竞逐连任党政
  • 加夫里伊尔·特罗耶波利斯基加夫里伊尔·尼古拉耶维奇·特罗耶波利斯基(俄语:Гавриил Николаевич Троепольский,1905年11月29日-1995年6月30日)苏联作家。特罗耶波利斯基于190
  • XDAndroidXDAndroid是将开源的Android移动操作系统移植到一系列具有高通硬件的HTC手机的一个项目。XDAndroid是通过名为HaRET(Handheld Reverse Engineering Tool)的Windows CE应用程序,使用一个名为名为“startup.txt”的配置文件,将手机引导进入Android系统,同时Windows Mobile将会被关闭。项目是由Xda-developers社区所创建,由于微软公司宣布中止对Windows Mobile系统的技术支持和开发,和该系统在市场上
  • 鲍里斯·巴尔蒙特鲍里斯·弗拉基米罗维奇·巴尔蒙特(俄语:Борис Владимирович Бальмонт,1927年10月6日-2022年2月16日),苏联政治人物,曾任苏联机床制造和工具工业部部长。第十一届苏联最高苏维埃代表。1927年生于伊万诺沃-沃兹涅先斯克省舒亚。是诗人康斯坦丁·巴尔蒙特的侄孙。1943年至1946年,在伊万诺沃第三空军特种学校学习。1946年起就读于莫斯科航空技术学院。1950年转入莫斯科鲍曼高等技术学校。1952年毕业后进入萨拉托夫二〇五国防工厂工作,历任工程师、高级工程师、副厂长兼车间