Burrows-Wheeler变换

✍ dations ◷ 2024-09-20 09:12:09 #无损压缩算法,变换

Burrows–Wheeler Transform(简称BWT,也称作块排序压缩),是一个被应用在数据压缩技术(如bzip2)中的算法。该算法于1994年被Michael Burrows(英语:Michael Burrows)和David Wheeler(英语:David Wheeler)在位于加利福尼亚州帕洛阿尔托的DEC系统研究中心(英语:DEC Systems Research Center)发明。它的基础是之前Wheeler在1983年发明的一种没有公开的转换方法。

当一个字符串用该算法转换时,算法只改变这个字符串中字符的顺序而并不改变其字符。如果原字符串有几个出现多次的子串,那么转换过的字符串上就会有一些连续重复的字符,这对压缩是很有用的。该方法能使得基于处理字符串中连续重复字符的技术(如MTF变换和游程编码)的编码更容易被压缩。

举个例子:

该算法的输出因为有更多的重复字符而更容易被压缩了。

算法将输入字符串的所有循环字符串按照字典序排序,并以排序后字符串形成的矩阵的最后一列为其输出。

banana
$ b a n a n a
a $ b a n a n
n a $ b a n a
a n a $ b a n
n a n a $ b a
a n a n a $ b
b a n a n a $
$ b a n a n a
a $ b a n a n
a n a $ b a n
a n a n a $ b
b a n a n a $
n a $ b a n a
n a n a $ b a
a n n b $ a a

Burrows–Wheeler变换的还原过程

  • 基于上述的BWT变换过程,以字符串“banana”为例,我们得到了变换结果“annb$aa”。其还原过程见以下过程:
  1. 1 基于原字符串矩阵的最后一列为“annb$aa”,我们进行该列进行排序,得到“annb$aa”,并将其作为还原矩阵的第一列
Burrows–Wheeler 还原过程 1
输入转移排序组合
- - - - - - a
- - - - - - n
- - - - - - n
- - - - - - b
- - - - - - $
- - - - - - a
- - - - - - a
a - - - - - -
n - - - - - -
n - - - - - -
b - - - - - -
$ - - - - - -
a - - - - - -
a - - - - - -
$ - - - - - -
a - - - - - -
a - - - - - -
a - - - - - -
b - - - - - -
n - - - - - -
n - - - - - -
$ - - - - - a
a - - - - - n
a - - - - - n
a - - - - - b
b - - - - - $
n - - - - - a
n - - - - - a
  1. 2 经过1.1的转移、排序和组合,我们得到了7对邻接字符串:<a$> <na> <na> <ba> <$b> <an> <an>,将这7对邻接字符串进行排序后,得到<$b> <a$> <an> <an> <ba> <na> <na>,由此,我们得到了还原矩阵的第二列“b$nnaaa”
Burrows–Wheeler 还原过程 2
输入转移排序组合
$ - - - - - a
a - - - - - n
a - - - - - n
a - - - - - b
b - - - - - $
n - - - - - a
n - - - - - a
a $ - - - - -
n a - - - - -
n a - - - - -
b a - - - - -
$ b - - - - -
a n - - - - -
a n - - - - -
$ b - - - - -
a $ - - - - -
a n - - - - -
a n - - - - -
b a - - - - -
n a - - - - -
n a - - - - -
$ b - - - - a
a $ - - - - n
a n - - - - n
a n - - - - b
b a - - - - $
n a - - - - a
n a - - - - a
  1. 3 经过1.2的转移、排序和组合,我们得到了7对邻接字符串:<a$b> <na$> <nan> <ban> <$ba> <ana> <ana>,将这7对邻接字符串进行排序后,得到<$ba> <a$b> <ana> <ana> <ban> <na$> <nan>,由此,我们得到了还原矩阵的第三列“abaan$n”
Burrows–Wheeler 还原过程 3
输入转移排序组合
$ b - - - - a
a $ - - - - n
a n - - - - n
a n - - - - b
b a - - - - $
n a - - - - a
n a - - - - a
a $ b - - - -
n a $ - - - -
n a n - - - -
b a n - - - -
$ b a - - - -
a n a - - - -
a n a - - - -
$ b a - - - -
a $ b - - - -
a n a - - - -
a n a - - - -
b a n - - - -
n a $ - - - -
n a n - - - -
$ b a - - - a
a $ b - - - n
a n a - - - n
a n a - - - b
b a n - - - $
n a $ - - - a
n a n - - - a
  1. 4 经过1.3的转移、排序和组合,我们得到了7对邻接字符串:<a$ba> <na$b> <nana> <bana> <$ban> <ana$> <anan>,将这7对邻接字符串进行排序后,得到<$ban> < a$ba > <ana$> < anan > < bana > < na$b > < nana >,由此,我们得到了还原矩阵的第四列“na$naba”
Burrows–Wheeler 还原过程 4
输入转移排序组合
$ b a - - - a
a $ b - - - n
a n a - - - n
a n a - - - b
b a n - - - $
n a $ - - - a
n a n - - - a
a $ b a - - -
n a $ b - - -
n a n a - - -
b a n a - - -
$ b a n - - -
a n a $ - - -
a n a n - - -
$ b a n - - -
a $ b a - - -
a n a $ - - -
a n a n - - -
b a n a - - -
n a $ b - - -
n a n a - - -
$ b a n - - a
a $ b a - - n
a n a $ - - n
a n a n - - b
b a n a - - $
n a $ b - - a
n a n a - - a
  1. 5 经过1.4的转移、排序和组合,我们得到了7对邻接字符串:<a$ban> <na$ba> <nana$> <banan> <$bana> <ana$b> <anana>,将这7对邻接字符串进行排序后,得到<$bana> <a$ban> < ana$b > <anana> <banan> <na$ba> <nana$>,由此,我们得到了还原矩阵的第五列“anbana$”
Burrows–Wheeler 还原过程 5
输入转移排序组合
$ b a n - - a
a $ b a - - n
a n a $ - - n
a n a n - - b
b a n a - - $
n a $ b - - a
n a n a - - a
a $ b a n - -
n a $ b a - -
n a n a $ - -
b a n a n - -
$ b a n a - -
a n a $ b - -
a n a n a - -
$ b a n a - -
a $ b a n - -
a n a $ b - -
a n a n a - -
b a n a n - -
n a $ b a - -
n a n a $ - -
$ b a n a - a
a $ b a n - n
a n a $ b - n
a n a n a - b
b a n a n - $
n a $ b a - a
n a n a $ - a
  1. 6 经过1.5的转移、排序和组合,我们得到了7对邻接字符串:<a$bana> <na$ban> <nana$b> <banaan> <$banan> <ana$ba> <anana$>,将这7对邻接字符串进行排序后,得到<$banan> <a$bana> < ana$ba> <anana$> <banana> <na$ban> <nana$b>,由此,我们得到了还原矩阵的第六列“naa$anb”。
Burrows–Wheeler 还原过程 5
输入转移排序组合
$ b a n a - a
a $ b a n - n
a n a $ b - n
a n a n a - b
b a n a n - $
n a $ b a - a
n a n a $ - a
a $ b a n a -
n a $ b a n -
n a n a $ b -
b a n a n a -
$ b a n a n -
a n a $ b a -
a n a n a $ -
$ b a n a n -
a $ b a n a -
a n a $ b a -
a n a n a $ -
b a n a n a -
n a $ b a n -
n a n a $ b -
$ b a n a n a
a $ b a n a n
a n a $ b a n
a n a n a $ b
b a n a n a $
n a $ b a n a
n a n a $ b a

经过六次排序转移与组合,还原出了原有的字符串即“$banana”。

def bwt(s):    """对字符串进行Burrows-Wheeler变换 不使用唯一字符('EOF')做标记 返回索引值列表"""    #创建所有循环字符串    table =  + s for i in range(len(s))]    #获取排序后的结果    table_sorted = table    table_sorted.sort()    #获取已排序表每个字符串在未排序表中对应字符串的下一个字符串在已排序表中的索引值    indexlist =     for t in table_sorted:        index1 = table.index(t)        index1 = index1+1 if index1 < len(s)-1 else 0        index2 = table_sorted.index(table)        indexlist.append(index2)    #取排序后结果的最后一列作为结果字符串    r = ''.join( for row in table_sorted])    return r, indexlistdef ibwt(r,indexlist):    """对字符串进行反Burrows-Wheeler变换 有索引值的反变换比使用唯一标记的反变换简单很多"""    s=''    x = indexlist    for _ in r:        s = s + r        x = indexlist    return s

python实现(基于末尾添加唯一字符方式)

通过在末尾添加唯一字符(不与输入字串中任何字符相同)后再进行变换,可以不需要传递索引值列表,不过逆变换的时候要做更多计算。

下面的伪代码提供了一个逆过程的朴素实现(输入字符串s为原过程之输出):

相关

  • 小波兰小波兰(波兰语:Małopolska,拉丁语:Polonia Minor)是波兰的历史地区之一,位于波兰的东南角。该地区不能与小波兰省相混淆,该省只包括小波兰历史地区的一部分。小波兰位于维斯瓦河上
  • 乳杆菌属见内文乳杆菌属(Lactobacillus)即为乳酸杆菌,是一群存在于人类体内的益生菌。乳杆菌因能够将碳水化合物发酵成乳酸而得名,可用于制造液态酸奶、固态奶酪、德国酸菜、啤酒、葡萄
  • Wallace, Alfred阿尔弗雷德·拉塞尔·华莱士 OM FRS(英语:Alfred Russel Wallace,1823年1月8日-1913年11月7日),英国博物学者、探险家、地理学家、人类学家和生物学家,以“天择”独立构想演化论而
  • 相扑相扑(日语:相撲/すもう sumō)是日本传统的神道仪式与体术,由两名力士裸露上身,互相角力。由神道的占卜神事发展而成,作为专业竞技项目,则称为大相扑。相扑是日本的国技和国际性的
  • HD 40307 gHD 40307 g,为一颗位于绘架座的太阳系外行星,位于恒星HD 40307的适居带之内,距离地球42光年。2012年10月28日,米可·托米等人借助欧洲南方天文台HARPS光谱仪设备发现了该行星。1
  • 卢海涛卢海涛,中国作家。2012年11月卢海涛和妻子杨兰以观光为名到达台湾,其后在美国政府协助下前往美国。卢海涛曾多次到山东东师古村探望当时被囚禁在家的盲人维权人士陈光诚,也曾与
  • 老母殿老母殿位于陕西省西安市临潼区骊山西绣岭第二峰之巅。骊山老母即女娲,相传曾在骊山炼石补天。该殿始建于秦,唐初重建,现有建筑属于明清格局。
  • 吉氏皮杜银汉鱼吉氏皮杜银汉鱼为辐鳍鱼纲银汉鱼目皮杜银汉鱼科的其中一种。本鱼分布于马达加斯加的淡水水域。本鱼体长呈纺锤型,略侧扁,吻略成尖突,吻长大于眼径,下腭肥后,背鳍2枚。体绿色,一暗
  • 迪亚高·荷西·克利曼甸奴迪亚高·荷西·克利曼甸奴(Diego José Clementino,1984年3月18日-),生于圣保罗,现效力沙巴。2009年12月,他加盟伊朗球会沙巴。
  • 甲骨文体育馆甲骨文体育馆(Oracle Arena),启用名奥克兰-阿拉米达郡竞技场体育馆(Oakland-Alameda County Coliseum Arena),旧名奥克兰体育馆(The Arena in Oakland和Oakland Arena)及奥克兰竞技场