序列组装

✍ dations ◷ 2025-09-13 11:47:19 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 共演化在生物学上,共演化是指“一项生物学的性质因另一项生物学的性质变化而随之变化”。共演化可以发生在许多生理学上的层次,如微观下蛋白质中氨基酸之序列,如巨观下不同生物的性状
  • 华氏911《华氏911》(英语:Fahrenheit 9/11),美国导演麦可·摩尔于2004年拍摄的纪录片。影片从批判的角度描述了美国总统乔治·沃克·布希、反恐战争和对新媒体的控制,也是美国票房记录最
  • 鼩负鼠目 Paucituberculata鼩负鼠属(Caenolestes)  秘鲁鼩负鼠属(Lestoros)  智利袋鼠属(Rhyncholestes)鼩负鼠目,学名Caenolestidae,为哺乳纲的一个目,只有鼩负鼠科一科,包括鼩负鼠属、秘鲁鼩负鼠属、
  • 科修斯科山科修斯科山(英语:Mount Kosciusko),又译科西阿斯科山,为澳大利亚山脉的最高峰,澳大利亚大陆的最高点(全国最高点莫森峰位于赫德岛上)。位于澳大利亚新南威尔士州东南隅,大分水岭的大
  • 蜂斗菜蜂斗菜属(学名:Petasites)是菊科下的一个属,为多年生草本植物。该属共有约15种,分布于北温带。
  • 羽虫鸟或者鸟类是鸟纲(学名:Aves)动物的通称,是唯一存活至今的恐龙,现代所有鸟类在生物学上也被分类为鸟形恐龙(即鸟翼类)的一部分;鸟纲的全体成员均为两足、恒温、卵生、身披羽毛且色彩
  • 朝鲜三国朝鲜半岛三国时代(朝鲜语:삼국시대)是朝鲜半岛427年到公元660年之间高句丽(前37年-668年)、百济(前18年-660年)、新罗(前57年-935年)三国鼎立的历史时期。三国的文化和语言相通。宗教原
  • 广州民航职业技术学院广州民航职业技术学院,是中国民航局直属的的第一所民航相关专业的高等职业教育院校。学校现共有3个校区:
  • ATC代码 (D06)(Antifungals for dermatological use)(Emollients and protectives)(Preparations for treatment of wounds and ulcers)(Antipruritics, including antihistamines, anesthetics,
  • 威廉·唐纳·汉弥尔顿威廉·唐纳·汉弥尔顿(英语:William Donald Hamilton、1939年8月1日-2000年3月5日),英国皇家学会成员,被认为是20世纪最伟大的演化生物学理论家之一。他提出了亲属选择理论,解释蚁