序列组装

✍ dations ◷ 2025-11-24 08:18:12 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • G20二十国集团(英语:Group of Twenty,缩写:G20)是一个国际经济合作论坛,于1999年12月16日在德国柏林成立,属于布雷顿森林体系框架内对话的一种机制,由七国集团(美国、英国、法国、德国、
  • γ球蛋白γ球蛋白(英语:Gamma globulins,又译为丙球蛋白)是球状蛋白质的一类,通过血清蛋白质电泳分别出来,最常见的γ球蛋白为免疫球蛋白(抗体),但并非所有免疫球蛋白都属于γ球蛋白,一些γ球
  • 多诺拉事件多诺拉事件也称多诺拉烟雾事件是1948年10月发生在在美国宾夕法尼亚州多诺拉(英语:Donora, Pennsylvania)的一起严重的大气污染事件。是一起以二氧化硫及其氧化产物等多种污染物
  • 形式证明数学上,一个公理系统(英语:Axiomatic system,或称公理化系统,公理体系,公理化体系)是一个公理的集合,从中一些或全部公理可以一并用来逻辑地导出定理。一个数学理论由一个公理系统和
  • 谬误谬误谬误论证(argument from fallacy)又称争论逻辑、诉诸逻辑(英语:argument to logic,拉丁语:argumentum ad logicam)、谬误谬误(fallacy fallacy)、谬误学家的谬误(fallacist's fallacy),
  • 环氧树脂环氧树脂(Epoxy),又称作人工树脂、人造树脂、树脂胶等。是一类非常重要的热固性塑料,广泛用于黏着剂,涂料等用途。人造树脂(Epoxy resins/Epoxy/Polyepoxide)是热固性环氧化物聚合物
  • 异丙硒醇丙硒醇(分子式:C3H7SeH)有以下两种异构体:
  • 丁国栋丁国栋(?-1649年),明末清初西北甘肃起义领袖。甘州(今甘肃省张掖市)人。丁国栋原为明朝驻甘州等地军官,先降于李自成义军,顺治初年降清朝。顺治五年(1648年)三月,因对清“重满轻汉”和“
  • 德胜德胜(1465年三月—1466年闰三月)为中国明朝时期起事者刘通的年号,前后共13个月。
  • 2019冠状病毒病湖南省疫情2019冠状病毒病湖南省疫情,介绍2019冠状病毒病疫情中,在中华人民共和国湖南省发生的情况。2020年1月21日,国家卫健委确认湖南省长沙市出现首例输入性新型冠状病毒肺炎确诊病例