序列组装

✍ dations ◷ 2025-11-29 22:34:57 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 全身性发炎反应症候群全身炎症反应综合症(Systemic inflammatory response syndrome ,SIRS)是一个影响到整个身体的炎症反应。它是身体的应激性反应,是机体应对一种感染性或非感染性因素的方式。虽
  • 统计力学统计力学(Statistical mechanics)是一个以玻尔兹曼等人提出以最大熵度理论为基础,借由配分函数 将有大量组成成分(通常为分子)系统中微观物理状态(例如:动能、势能)与宏观物理量统计
  • 马塔纳湖马塔纳湖是印度尼西亚的湖泊,由南苏拉威西省负责管辖,长28公里、宽8公里,面积164.1平方公里,海拔高度382米,最大水深590米,这意味着湖底在海平面之下。马塔纳湖是该国最深的湖泊,也
  • 雅典雅典(希腊语:Αθήνα,Athína,;古希腊语:.mw-parser-output .Polytonic{font-family:"SBL BibLit","SBL Greek","EB Garamond","EB Garamond 12","Foulis Greek",Cardo,"Gentiu
  • ΑAlpha(Άλφα;大写Α,小写α,中文音译:阿尔法、阿拉法),是第1个希腊字母。小写α用于物理学上:小写α用于数学上:“Alpha”常用作形容词,以显示某件事物中最重要或最初的,例如软件工
  • 埃及苏丹国埃及苏丹国 (阿拉伯语:السلطنة المصرية‎),是1914年至1922年间英国于埃及所建立的一个短命保护国名称。
  • 总爷国小台南县麻豆镇总爷国民小学,简称总爷国小,是台湾台南县麻豆镇曾经存在过的一所国民小学。于民国97年(2008年)因为台南县政府要扩建南瀛总爷艺文中心的范围,总爷国小遭裁撤,并入台
  • 理查三世《理查三世》是英国剧作家威廉·莎士比亚的作品,逼真地描述了理查三世短暂的执政时期,该剧本被认为创作于大约1591年。这部戏剧有时被分类为悲剧(早期的四开本),但是更准确的分类
  • SWA5冲锋枪SWA5冲锋枪是由一间美国民间小枪厂Special Weapons所制造的MP5仿制版。SWA5是Special Weapons以MP5作为蓝本的一把冲锋枪,但相比HK原厂制造的MP5,SWA5的内部结构不同及可靠性
  • 织金洞织金洞,中国贵州省织金县境内的一个溶洞,位于距县城东北23公里的民寨乡,距贵阳市区166公里,已探明长度为13.5公里,面积70万平方米。该洞原名打鸡洞,1980年被织金县旅游资源勘察队