序列组装

✍ dations ◷ 2025-11-10 03:55:05 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 宫内窘迫胎儿窘迫(fetal distress),是胎儿宫内缺氧的医学上统称,是一种综合症状。当胎儿的心跳变慢,并且于子宫收缩后保持缓慢,这表示婴儿无法得到足够的氧气。此情况并非罕见,根据医学研究
  • 阿雅克肖1法国统计部门在计算土地面积时,不计算面积大于1平方公里的湖泊、池塘、冰川和河口。阿雅克肖(法语:Ajaccio,科西嘉语:Aiacciu),位于法国科西嘉岛西岸,是科西嘉岛的首府,是科西嘉岛最
  • 王梓坤王梓坤(1929年4月21日-)原名王森福,生于湖南零陵,江西吉安人。1952年毕业于武汉大学数学力学系,曾任南开大学校长、北京师范大学校长,概率统计教授、博士生导师,1991年当选中国科学
  • 英属北美加拿大英属北美(英语:British North America)是指1783年美国独立战争完结后仍效忠于大英帝国的北美洲英属殖民地,当中的地区于1867年起组成加拿大自治领 ,获得自治地位。英属北美
  • 脑痫癫痫症(英语:Epilepsy),是一种神经性疾患(英语:Neurological disorders),特征为反复地癫痫发作,即为重复发作或长或短的严重抽搐症状,可能会造成物理性伤害,甚至骨折。癫痫症的定义是,患
  • 叶绿素d叶绿素 d是叶绿素的其中一种,于1996年被确定。它存在于使用从阳光捕获的能量用于光合作用的海洋红藻和蓝菌中。叶绿素d吸收远红外光,波长710 nm,正好在光学范围之外.。含有叶绿
  • 诺瓦塔诺瓦塔县(英语:Nowata County)是美国奥克拉荷马州东北部的一个县,北邻堪萨斯州,面积1,504平方公里。根据2010年的人口普查,本县共有人口10,536人。本县县治为诺瓦塔(Nowata)。几千年
  • 科罗拉多洛矶科罗拉多洛矶队(英语:Colorado Rockies)是一支位于科罗拉多州丹佛的美国职棒大联盟球队,隶属国家联盟西区。洛矶于1991年进行筹建,并在1993年正式成军进行比赛,主场为库尔斯球场(Co
  • 康涅狄克州康涅狄格州(英语:State of Connecticut),简称康州,是美国东北部的一州,也是新英格兰区域中最南的一州。在美国独立战争时期,是13州联盟之一。州花山桂,州鸟美洲知更鸟,州树白橡。美国
  • 逊克县逊克县为中华人民共和国黑龙江省黑河市下辖县,位于黑龙江省北疆,小兴安岭中段北麓,黑龙江中游南岸,隔黑龙江与俄罗斯阿穆尔州米哈伊洛夫区相望,为国家一类口岸城市。全县面积1734