序列组装

✍ dations ◷ 2025-11-24 23:53:51 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 外呼吸外呼吸是指氧与二氧化碳在肺脏内与其周围微血管血液间所进行的气体交换,相对的概念是内呼吸(指一般细胞内与微血管血液间的气体交换。
  • 阳极处理阳极处理,是电解钝化处理的一种,用来增加金属零件表面氧化层的厚度,一般铝合金很容易氧化,氧化层虽然有一定钝化作用,但长期暴露之结果,氧化层会剥落,丧失保护作用,因此阳极处理即是
  • 天体演化学天体演化学(cosmogony,又译为宇宙进化论)是指各种关于天体及宇宙起源与演化的学说、理论或宗教教义等。该词来自希腊语的κοσμογονία (或κοσμογενία),由κόσ
  • 绥靖主义绥靖主义(汉语拼音:suíjìng;注音符号:ㄙㄨㄟ ㄐㄧㄥˋ;英语:Appeasement,“慰抚”之意。),以绥(安抚)的手段促使靖(局势安定),又称为姑息主义。绥靖政策是一种通过在某些可能导致战争的
  • 真空焊硬焊(英语:brazing)是一种焊接方式,将熔点低于欲连接工件之熔填料(钎料)加热至高于熔点,使之具有足够的流动性,利用毛细作用充分填充于两工件间(称为浸润),并待其凝固后将二者接合起来
  • 羟甲戊二酰辅酶A还原酶1DQ8, 1DQ9, 1DQA, 1HW8, 1HW9, 1HWI, 1HWJ, 1HWK, 1HWL, 2Q1L, 2Q6B, 2Q6C, 2R4F, 3BGL, 3CCT, 3CCW, 3CCZ, 3CD0, 3CD5, 3CD7, 3CDA, 3CDB· oxidoreductase activity· p
  • 社会秩序实证主义 · 反实证主义(英语:Antipositivism) 结构主义 · 冲突理论 中层理论 · 形式理论 批判理论人口 · 团体 · 组织(英语:Organizational theory) · 社会化 社会性
  • 突泉突泉可以指:
  • 开放系统 (热力学)在热力学中,开放系统指与外界交换能量和质量的系统。系统是随意介定的:在研究一些特定组件时,相关的空间领域可被视为系统。开放系统假设了外界能量供应不能减少;实际上,这种外界
  • 卤部卤部,为汉字索引中的部首之一,康熙字典214个部首中的第一百九十七个(十一划的则为第三个)。就正体中文中,卤部归于十一划部首,而简体中文则归在七划。卤部只以左方为部字。且无其