序列组装

✍ dations ◷ 2025-07-11 06:53:34 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 白垩纪灭绝事件白垩纪-古近纪灭绝事件(简称K-Pg事件、K-Pg灭绝),旧称为白垩纪﹣第三纪灭绝事件(简称K-T事件、K-T灭绝),俗称恐龙大灭绝,是地球历史上的第五次以及最后一次大规模物种灭绝事件、也是
  • 专利合作条约专利合作条约(Patent Cooperation Treaty, PCT)是于1970年达成的关于专利申请的国际合作的条约,于1978年生效。该条约提供了关于在缔约国申请专利的统一程序。依照专利合作条约
  • 潮汐表潮汐表是用来预报和显示一个地点每天的潮汐涨落时间和高潮与低潮的潮水高度。在中间的时间(高潮和低潮的中间)可以概略的使用12等分规则预测,或是使用港口已经发布的潮汐曲线精
  • 李拉赫·阿尔康莉拉·奥尔康(英语:Leelah Alcorn,1997年10月15日-2014年12月28日)是美国一名跨性别女孩,她的自杀事件造成了国际影响。奥尔康在她的Tumblr博客上写了一封自杀遗书,写的是社会标准
  • 乌拉诺斯乌拉诺斯乌拉诺斯(希腊语:Οὐρανός,拉丁语:Uranus),从大地母亲(盖亚)的指端诞生。象征希望与未来,并代表了天空。乌拉诺斯和盖亚首先生下了十二位提坦,即六个儿子和六个女儿,以及
  • 天蛾见内文天蛾科(学名:Sphingidae)是鳞翅目的一科,科名取自希腊语“Sphinx”,即希腊神话中的怪物“斯芬克斯”。 天蛾科下辖200多个属,约1,450个品种。本科物种大多数于热带生活,但其
  • 非洲统一组织– Africa(light blue及dark gray)– the African Union(light blue)非洲统一组织(英语:Organization of African Unity;法语:Organisation de l'Unité Africaine)成立于1963年5月
  • 2006年美国中期选举2006年美国中期选举于美国时间2006年11月7日举行,这次中期选举是为了改选美国众议院全部435席众议员、美国参议院100席的三分之一(三十三席)和三十六位州长。三十七个州也趁这
  • 下酒小吃下酒小吃又称佐酒小吃,一般指喝酒时食用的小菜或小吃,古称酒肴、肴(保留在现代日语)、按酒(保留在现代韩语)。熟食则可称为下酒菜之意。一般用来调节喝酒时的口感,很少当主食作裹腹
  • 移动性 (生物体)移动性(英语:motility,又称运动性、活动性)是生物学术语,意指能自发且独立地移动。此一名词可以应用在单细胞和多细胞的生命体上头。在细胞生物学和生医工程中,移动性通常是指细胞