序列组装

✍ dations ◷ 2025-06-28 17:44:00 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 卵巢滤泡囊肿卵巢滤泡囊肿(英语:follicular cyst of ovary, follicular cyst),或囊状滤泡囊肿(英语:graafian follicle cyst)是一类单纯滤泡囊肿,也是最常见的一类卵巢囊肿。这类疾病发生于未发
  • 礼记《礼记》,儒学经典之一,所收文章是孔子的学生及战国时期儒学学者的作品。西汉学者戴德将或稍早于他的刘向收集的130篇综合简化,一共得85篇,称为《大戴礼记》,后来其侄戴圣又将“
  • span class=chemf style=white-space:nowrap;Csub20/sub二十烷是化学式为C20H42的烷烃。它有366,319种同分异构体。二十烷在工业石油化学中没有被太多地使用,因为它的高闪点令它成为低效能的燃油。由于它的化学性质不活跃,所以正二
  • 香槟酒香槟酒或香槟(英文:Champagne)(法语:vin de Champagne)是产于法国香槟地区(不同于干邑地区的大小香槟区)按照严格的法律规定酿造的的一种葡萄气泡酒。香槟酒需要在葡萄酒瓶中进行二
  • 华南银行华南商业银行股份有限公司,简称华南银行、华银,是台湾的一所大型的商业银行,于日本时代大正8年(1919年)1月29日创设于台北市表町二丁目二番地(即今台北市馆前路45号),当时名为“株式
  • 客拼客家语拼音方案,原名台湾客家语拼音方案(客语白话字:Thòi-vàn Hak-kâ-ngî Phîn(Piâng)-yîm Fông-on)为目前中华民国教育部所公告的台湾客家语罗马字拼音方案。2008年之
  • 蒙村1法国统计部门在计算土地面积时,不计算面积大于1平方公里的湖泊、池塘、冰川和河口。蒙(法语:Mons)是法国普罗旺斯-阿尔卑斯-蓝色海岸大区 瓦尔省的一个市镇,位于该省东北部,属于
  • 里娜·韦特缪勒里娜·韦特缪勒(意大利语:Lina Wertmüller,意大利语:,1928年8月14日-),意大利电影导演、编剧,1977年凭借作品《七淫七纵七美女(英语:Seven Beauties)》成为获奥斯卡金像奖最佳导演提名
  • 美国通用英语通用美式英语(英语:General American,缩写为GA,或GenAm),又译为通用美国英语,是一种美式英语的标准化口音。它是一种概称,在其中涵括了多种美式英语的语言变体。起源于美国南部与美
  • 斑林狸(P. pardicolor)斑林狸(学名:Prionodon pardicolor),又名斑灵狸或东方蓑猫,属林狸科林狸属,是生活在喜玛拉雅山中部及东部的食肉目猫型亚目动物。它们身体短小,呈浅色,头部尖长,四肢细小。由于它们会