序列组装

✍ dations ◷ 2025-10-07 18:23:19 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 俄国åæ ‡ï¼š60°N 90°E / 60°N 90°E / 60; 90ä¿„ç½—æ–¯è”邦(俄语:РоÑÑийÑĞºĞ°Ñ Ğ¤ĞµĞ´ĞµÑ
  • 老人老年(英语:old age),一般指生物的生命周期一个阶段,即中年到死亡的一段时间不同的文化圈对于老年人有着不同的定义。由于生命的周期是一个渐变的过程,壮年到老年的分界线往往是很
  • 热射病中暑(英语:Heat stroke)是一种受室外空气的高温多湿或阳光过久直接照射动物体、人体等造成体温异常升高不降所引起的症状的通称。从病情的差异大致上可分为以下四类:
  • 姚建铨姚建铨(1939年1月29日-),江苏无锡人,生于上海,中国激光与光电子科学家。1957年由苏州中学考入天津大学精仪系,1965年研究生毕业。现任天津大学教授。1997年当选为中国科学院院士。
  • 5-HT2受体5-HT2受体(5-HT2 receptors)属于5-羟色胺受体家族的一个次家族,可与内源性神经递质血清素结合(5-羟色胺)。5-HT2次家族包含三种G蛋白偶联受体,可与Gq/G11(英语:Gq protein)结合并调控
  • 仙女环仙女环(英语:fairy ring、fairy circle、elf circle、elf ring、pixie ring)是蕈类族群自然排列而成的环。仙女环直径会生长超过10米(33英尺),在这些真菌成长和吸收地底下的养分时
  • 恋屁癖性欲倒错是指对物体、情境或其它非典型对象感到具有性吸引力,美国精神医学学会在其出版品《精神疾病诊断与统计手册第五版》里将性欲倒错(非典型的性偏好)以及 paraphilic(需要
  • ICD 10国际疾病伤害及死因分类标准第十版(英语:The International Statistical Classification of Diseases and Related Health Problems 10th Revision,ICD-10)是世界卫生组织依据疾
  • 南京林业大学南京林业大学是一所江苏省省属综合性大学,位于江苏省南京市玄武区。学校前身为中央大学(创建于1902年)森林系和金陵大学(创建于1888年)森林系,1952年合并组建的南京林学院,是当时中
  • 尚普兰湖尚普兰湖(Lake Champlain)是一个位于北美洲的淡水湖,主要位于美国境内(佛蒙特州与纽约州),但有一部分跨越了美国与加拿大的边界。尚普兰湖位于佛蒙特州的绿山山脉与纽约州的阿第伦