序列组装

✍ dations ◷ 2025-02-24 01:13:20 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 补救途径补救途径(英语:Salvage pathway,又称补救合成、再利用途径),是与从头合成相对的概念,它是指将已分解的生物分子作为原料,再次进行该生物分子的合成的一种代谢途径。对于核苷酸合成
  • 着色性干皮症着色性干皮症(Xeroderma pigmentosum, XP)是一种遗传性疾病。患者皮肤细胞被阳光中的紫外线破坏之后不能自行修复,于儿童期即很易诱发癌变。发病率为1/25万。表皮细胞中的DNA在
  • 让-皮埃尔·里奥让-皮埃尔·里奥(法语:Jean-Pierre Léaud;1944年5月28日-),法国电影演员,以演出安端·达诺(法语:Antoine Doinel)这个角色的五部弗朗索瓦·特吕弗执导的电影闻名,《四百击》(1959)为这
  • 核糖核酸核糖核酸(英语:Ribonucleic acid),简称RNA,是一类由核糖核苷酸通过3',5'-磷酸二酯键聚合而成的线性大分子。自然界中的RNA通常是单链的,且RNA中最基本的四种碱基为A(腺嘌呤)、U(尿嘧
  • 王小凡王小凡(1955年-),出生于中国乌鲁木齐,美籍华裔癌症生物学家,杜克大学医学院教授,2017年当选为中国科学院外籍院士。
  • norepinephrine去甲肾上腺素(INN名称:Norepinephrine、nor-epinephrine,也称Noradrenaline、nor-adrenaline--,缩写NE或NA),旧称正肾上腺素,学名1-(3,4-二羟苯基)-2-氨基乙醇,是肾上腺素去掉 N-甲
  • 旧世界旧世界(英语:Old World,中文也称旧大陆)是指在哥伦布发现新大陆之前,欧洲所认识的世界,包括欧洲、亚洲和非洲(全体被称为亚欧非大陆或世界岛)。这个词语是用来与新大陆(包括北美洲,南
  • 伊斯基亚伊斯基亚(Ischia)是第勒尼安海中的一个火山岛,距离意大利南部城市那不勒斯约为30公里。岛屿的形状大致呈梯形,东西长约10公里,南北约7公里,海岸线总长约34公里,面积46.3平方公里。
  • 法律重述在 美国的法律中, 《法律重述》是一系列法学论文,目标在于将普通法的一般原则传达给法官和律师。至今一共有四个系列的《法律重述》,均由美国法律协会出版。美国法律协会是一个
  • 佐治亚州佐治亚州(英语:State of Georgia),是美国东南方的一个州,邮政简写是GA。该州也是美国独立时期13州的成员之一。首府为亚特兰大。在13州中排名第4,1778年1月2日加入独立战争。2000