序列组装

✍ dations ◷ 2025-05-17 23:30:15 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 泡菜泡菜古称葅(zū),是指为了利于长时间存放而经过发酵的蔬菜。一般来说,只要是纤维丰富的蔬菜或水果,都可以被制成泡菜;像是卷心菜、大白菜、红萝卜、白萝卜、大蒜、青葱、小黄瓜、
  • 发展经济学发展经济学(英语:Development economics)是经济学的分支之一,主要研究对象为贫困落后的农业国家或发展中国家如何实现工业化、摆脱贫困、走向富裕的过程。威廉·阿瑟·刘易斯、
  • 地貌学地貌学,又称地形学,是一门研究地球表面起伏形态、分布规律、物质结构、发展历史和开发利用的科学,是自然地理学的一个分支学科,也是地质学和地理学之间的一门边缘交叉学科。从语
  • 猪科猪科(学名:Suidae)属于哺乳纲偶蹄目,共有约20种现生物种与许多化石物种,包括家猪以及疣猪和鹿豚等多种野猪。所有物种均原产于亚洲、欧洲、非洲等旧大陆地区。已知最早的猪科化石
  • 凤山体育园区高雄市凤山体育馆(原高雄县立体育馆)是一座位于高雄市凤山区的综合性体育馆。为两层楼圆形建筑,可容纳5317人。于1977年10月启用。2017年11月起,因为高雄市凤山运动园区改造计划
  • 永夜坑永夜坑是指太阳系的天体上阳光永远受到遮挡的点。永夜坑的海拔都相当低,并且都是在转轴倾角相当低的天体上。永夜坑可能是适合太空探索和太空移民的地点,在这些区域可能会有水
  • 退出印度运动退出印度运动为印度英国殖民时期的1942年8月,圣雄甘地发起的让印度急速独立的一次行动,属于公民抗命运动重要组成部分;目的是为了让英属印度政府尽快走上谈判桌。这个运动采取
  • CVC广播电台CVCGo(原名:CVC中文广播电台,已经停止广播服务。转型为原创视频拍摄)是CV传播机构(总部设在英国)的组成部分,隶属于设在澳大利亚的亚太媒体中心。CV是一个全球性、非营利的媒体组织
  • 毕节毕节市是中华人民共和国贵州省下辖的地级市,位于贵州省西北部,乌江上游,黔滇川三省交界。东与遵义、贵阳两市相接,南连安顺、六盘水两市,西南与云南省曲靖市接壤,北与云南省昭通市
  • 李贺李贺(790年-816年),字长吉,河南福昌(今河南宜阳)人,是著名的唐朝诗人,被称为“诗鬼”。正史所载李贺资料甚少,《新唐书》有李贺小传,其生平见于李商隐的《李贺小传》与杜牧应沈子明之请