比对

✍ dations ◷ 2025-04-04 08:03:31 #比对
序列比对指将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。在比对中,错配与突变相应,而空位与插入或缺失对应。序列比对还可用于语言进化或文本间相似性之类的研究。术语“序列比对”也指构建上述比对或在潜在的不相关序列的数据库中寻找significant alignments。对于很短或非常相似的序列,我们可以人工进行比对。然而,在很多问题中,我们需要对非常长的序列进行比对,这是单靠人类的努力所不能解决的。在这种情况下,我们通过构造算法来进行高效的序列比对,有时还需要对最终结果进行调整,因为有些结果难以通过算法表达出来(特别是核苷酸序列)。序列比对的计算方法一般分为两类:全局性比对(global alignments)和局部比对(local alignments)。计算一个全局性的路线,是一个全局优化的形式,其强制按照整个长度的所有查询序列对齐。与此相反,局部比对只确定局部的相似而整个长序列却往往大相径庭。局部比对往往是可取的,但可能更难以计算的,因为还有来自确定其他相似区域的挑战。各种计算算法已应用于序列比对的问题,包括缓慢,但正规的像动态规划的优化方法和高效率,但不彻底的启发式算法,或大型数据库搜索设计的概率方法。双序列比对方法涉及寻找(局部)最优匹配片断或蛋白质(氨基酸)或DNA(核酸)全局比对。全局比对是指将参与比对的两条序列里面的所有字符进行比对。 全局比对主要被用来寻找关系密切的序列。由于这些序列也都很易通过本地比对方法找到,现在全局比对也有些被认为只是一种技巧。另外,全局比对在应用于分子进化时也有些问题(比如domain shuffling -见下),这也限制了这种方法的可用性。多序列比对是成对比对的延伸,是为了在一次比对里面处理多于两条的的序列。多序列比对方法试图比对一个指定序列集合里面的所有序列,这可以帮助确定这些序列的共同区段。进行多序列比对有几种方法,最常用的一种是Clustal程序集,它使用渐进多序列比对算法。Clustal在cladistics中被用来建立进化树,在PSI-BLAST和Hidden Markov model- (HMM-)中用来建立序列档案以在序列数据库中搜索更远的同源序列。多序列比对编程实现困难。被归为NP难题的一种。这一方法利用一个预先计算的哈西表作为短序列的索引。给定一个被查询序列,将根据索引来查询子序列,从而减少查询次数和时间。提供一些参数将使该方法更快或更准确。检索到与检索序列匹配的模式后,需要进一步使用更加准确和深入的算法。BLAST利用成对的本地检索和许多其他方法来提高Smith-Waterman算法的速度。

相关

  • 分解者分解者(英语:decomposer)主要是生态系统中的各种细菌和真菌。它们能够分解动植物尸体和遗物中的有机物并且利用其中的能量,将有机物转化成为无机物供生产者如植物再利用,重新以有
  • 巨细胞巨细胞(英语:giant cell,或称为多核巨细胞)是多个不同细胞(常为组织细胞)融合在一起形成的,常伴随形成肉芽肿。巨细胞可作为感染的反应而形成,这些感染包括结核病、疱疹或HIV,也可由
  • 油粒体油粒体(英语:elaioplast, elioplast),又称油质体、造油体,是植物细胞中的一种质粒体,属于白色体,其主要功能为储存和合成脂质。油粒体的英文名称elaioplast来自古希腊文的ἔλαι
  • 丙酸丙酸(propanoic acid),又称初油酸,是三个碳的羧酸和短链饱和脂肪酸,化学式为CH3CH2COOH。纯的丙酸是无色、腐蚀性的液体,带有刺激性气味。工业上丙酸是通过四羰基镍催化剂存在下
  • 两性霉素两性霉素B(英语:Amphotericin B,商品名:Fungizone),一种具有抑菌或杀菌作用的抗霉菌剂。对新生隐球菌、白色念珠菌、组织胞浆菌、球孢子菌、酿母菌均具抑制作用。其所产生的药效端
  • DingbatDingbats,俗称杂锦字体,本来是印刷品之中使用的装饰及图形符号。在计算机被用来制作印刷刊物后,印刷业界便制造了各种杂锦字体,最著名的是Adobe的Zapf Dingbats字体。微软于Wind
  • 记忆异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 理性的时代前苏格拉底 · 古代 中世纪 · 文艺复兴 17世纪 · 18世纪 · 19世纪 · 20世纪 后现代 · 当代17世纪哲学一般被认为是近代哲学的开端。中世纪的方法――尤其
  • 胶原胶原蛋白(collagen) 占哺乳类动物总蛋白质约20% ,也是人体的一种非常重要的蛋白质,主要存在于结缔组织中。它有很强的伸张能力,是韧带的主要成分,胶原蛋白也是细胞外基质的主要组
  • 干部,为汉字索引里为部首之一,康熙字典214个部首中的第五十一个(在三划部首中列为第二十二个)。干部通常是从下、左、右方及中间均可为部字,且无其他部首可用者将部首归为干部。1