BLAST (生物信息学)

✍ dations ◷ 2025-07-19 06:43:15 #生物信息学算法,计算系统发生学,生物信息学软件,实验室软件,公有领域软件

生物信息学中,BLAST(英语:Basic Local Alignment Search Tool)它是一个用来比对生物序列的一级结构(如不同蛋白质的氨酸序列或不同基因的DNA序列)的算法。 已知一个包含若干序列的数据库,BLAST可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。 例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个BLAST搜索来确认人类是否包含类似的基因(通过序列的相似性)。BLAST算法以及实现它的程序由美国国家生物技术信息中心(NCBI)的Eugene Myers(英语:Eugene Myers)、Stephen Altschul(英语:Stephen Altschul)、Warren Gish(英语:Warren Gish)、David J. Lipman(英语:David J. Lipman)及Webb Miller(英语:Webb Miller)博士开发的。

研究者利用BLAST来解决的其他问题有:

……等等。

BLAST是一个被广泛使用于分析生物信息的程序,因为它可以兼顾我们在做搜索时的速度以及搜索结果的精确度。因为当我们所要搜索的目标数据库非常庞大的时候,速度就变成一项很需要考量的因素。在像BLAST和FASTA(英语:FASTA)这些快速算法被开发之前,我们是使用动态规划算法来作数据库的序列搜索,这真的非常的耗时。BLAST使用启发式搜索来找出相关的序列,在速度上比完全只使用动态规划大约快上50倍左右,不过它不像动态规划能够保证搜索到的序列(Database sequence)和所要找的序列(Query sequence)之间的相关性,BLAST的工作就是尽可能找出数据库中和所要查询的序列相关的信息而已,精确度稍微低一点。此外,BLAST比FASTA更快速,因为BLAST只对比较少出现或是较重要的一些关键字作更进一步的分析,而FASTA是考虑所有共同出现在所要搜索的序列和目标序列的字。从下面介绍的算法可以更进一步的了解。

这边我们以蛋白质对蛋白质序列搜索所用的程序BLASTP之实做的步骤,来了解BLAST这程序的主要思想。

由NCBI管理的BLAST网站允许任何人使用浏览器来在包含大部分新测序的物种的不停更新的DNA或蛋白质数据库中进行相似性搜索。这个服务器包含很多程序,最重要的几个如下:

已知一个蛋白的氨酸序列,通过这个程序可以找出在用户选择的蛋白质数据库中与其最相似的序列。

已知一段已经转录的序列,借由这个程序对这段序列的6个ORF对上用户所选择的蛋白质数据库,比对最相似的序列。其功用可以找出在基因体DNA(genomic DNA)上翻译出蛋白质的序列。

已知一段蛋白质的氨酸序列,借由这个程序可将此序列,对用户所选择的已转录序列数据库(包含这个数据库的6个ORF),比对出最相似的序列。

已知一段已转录的序列,借由这个程序对这已知序列的6个ORF,对上用户所选择的已转录序列数据库(亦包含6个ORF),比对出最相似的序列,因为这个程序比对来源的6个ORF,与数据库的6个ORF,所以会执行相当久。

这个程序用来搜索蛋白质的"远亲".首先,一个用户提交的蛋白质序列的所有"近亲"的列表被建立起来,然后这些蛋白质被结合在一个作为对序列的某种平均的"特征序列"当中。再然后用这个特征序列在蛋白质数据库中进行搜索,就会找出更大的一组蛋白质的列表。这个蛋白质列表有一个不同的特征序列,这个序列被用来迭代地运行上述过程。

通过在搜索中包含相关的蛋白质,PSI-BLAST对于寻找已知蛋白进化上的"远亲"的灵敏度要比一般的blastp高很多。

Focuses search around pattern (motif)

相关

  • 柳氮磺吡啶柳氮磺胺吡啶(Sulfasalazine),缩写为SSZ,是一种磺胺类药物,可用于治疗类风湿性关节炎、溃疡性结肠炎,以及克罗恩病。柳氮磺胺吡啶最早于1950年在美国获批上市,目前仍然是治疗类风湿
  • 帕埃斯图姆帕埃斯图姆(Paestum)是意大利坎帕尼亚地区的城镇。它位于奇伦托地区北部,那不勒斯东南方85公里萨莱诺省靠近海岸的地方,以古希腊建筑多立斯柱式神庙而闻名。该城由来自希腊锡巴
  • 1970年1970年美国人口普查(英语:1970 United States Census)是美国历史上第19次全国人口普查,确定了美国的常住人口为203,392,031人,相比1960年美国人口普查,同比增长为13.4%。加利福尼
  • 委内瑞拉国立青少年管弦乐团系统委内瑞拉国立青少年管弦乐团系统 (西班牙语:El Sistema Nacional de las Orquestas Juveniles e Infantiles de Venezuela,通常当地人简称为“El Sistema”或“La Orquesta”)
  • 葡萄糖六磷酸盐脱氢酶缺乏症葡萄糖-6-磷酸脱氢酶缺乏症 ,又名G6PD缺乏症(英文:Glucose-6-Phosphate Dehydrogenase deficiency, G6PDD) ,俗称蚕豆症。是一种先天代谢缺陷(英语:Inborn errors of carbohydrat
  • 村庄村庄指居民住宅集中区域,通常为平原、盆地居住地形,也包括大的自然村落,人口居住相对集中,由成片的居民房屋构成建筑群,平原的村庄房屋建筑密度较自然村落大。“村庄”多作为中国
  • 交食周期食的周期是相同的食一再循环发生的时间间隔。食有各种不同的种类,而相同现象的食会再度发生。重复相同食的系列就称为食的系列。当地球和月球与太阳并列时就可能发生食,这时一
  • 捷克国家图书馆克莱门特学院(Klementinum)是捷克首都布拉格市中心的一组历史建筑群,目前用作捷克的国家图书馆。克莱门特学院的历史可以追溯到11世纪一座朝拜圣克莱门特的小圣堂。在中世纪,多
  • X俱乐部X俱乐部(英语:X Club),于19世纪末,在英国伦敦出现的私人团体,以汤玛斯·亨利·赫胥黎为首,成员有九个,于1864年11月3日首次聚会,1893年后解散。他们以推动自然选择与进化论的研究为宗
  • 石德铁路石德铁路,中国境内由河北省石家庄市至山东省德州市之间的铁路线。沿途经河北藁城、晋州、辛集、深州、衡水等市县,正线全长181.9公里。在衡水与京九铁路交汇。石德铁路修建于1