序列组装

✍ dations ◷ 2025-11-23 07:30:11 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 鼻冲洗鼻冲洗(英语:Nasal irrigation),又称鼻腔冲洗、鼻窦浇灌、鼻内冲洗、洗鼻、鼻窦盥洗,是清洁及稀释鼻腔内的过敏原、鼻涕、干掉的鼻涕及脏污的一种方法,可以缓解鼻塞、过敏性鼻炎、
  • 维思通利培酮(英语:Risperidone),常见商品名Risperdal,为一种精神科药物。主要用于治疗精神分裂症、躁郁症,以及自闭症症状者的易怒情形。本品可口服或肌肉注射给药。注射剂型的药效可维
  • 硫酸软骨素蛋白聚糖硫酸软骨蛋白多糖(英语:Chondroitin sulfate proteoglycan;CSPG)又称硫化软骨蛋白多糖。是硫酸软骨与蛋白多糖结合的产物,在脑部中调控神经系统的发育与生长,它能抑制神经纤维的再
  • University of Dundee邓迪大学(英语:University of Dundee)是一座坐落于英国邓迪的世界前200名公立大学,始创立于1881年,除邓迪外它在苏格兰其它地方还有少许研究所。现有学生18,000人,教职工3000人。
  • 卡那卡那富语卡那卡那富语(卡那卡那富文:Kanakanavu)为台湾卡那卡那富族人所使用的语言,为台湾原住民语言之一种,属于南岛语系的次语群。亦归类为台湾南岛语第3群,并与邹语以及拉阿鲁哇语(Saar
  • 北路中山北路是台湾台北市重要的南北干道,南接中山南路。中山北路自中华民国行政院起,往北经双连、圆山过基隆河后,经士林、兰雅至天母,全路分为七段。民权东西路口以南属省道台1甲
  • 生态智慧生态智慧是以深层生态学的角度,深刻地分析和理解生态系统,从而得到人类和其他物种生物如何共存的智慧。生态智慧指出人类是自然界的一分子,对所有生命体,无论是人类或非人类物种
  • 八大区域日本地理区划描述了日本国内基于历史人文与自然地理等因素所划分成的地方或地区概念。对于非日本当地的居民来说,一般较为熟悉的是根据地理上的概念,将日本分为日本列岛的四个
  • 南锥体南锥体(西班牙语:Cono Sur, 葡萄牙语:Cone Sul)指的是南美洲位于南回归线以南的地区。一般人们所说的南锥体包括了阿根廷、智利和乌拉圭三个国家。有时也会包括巴拉圭和巴西的南
  • 维也纳国际中心维也纳国际中心(英语:Vienna International Centre;德语:Internationales Zentrum Wien),通常称作维也纳联合国城,为联合国维也纳办事处(UNOV)所在地,位于多瑙河以北。维也纳国际中心