序列组装

✍ dations ◷ 2025-04-03 12:22:55 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 纳米医学纳米医学是随着纳米生物医药发展起来用纳米技术解决医学问题的学科。纳米技术和材料的发展将将给医学领域带来一场深刻的革命,主要在对付癌症和治疗心血管疾病方面有重要意义
  • 代尔夫特坐标:52°00′54″N 4°21′24″E / 52.01500°N 4.35667°E / 52.01500; 4.35667代尔夫特(荷兰语:Delft,.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linu
  • 远东航空103号班机远东航空103号班机是由台湾台北松山机场飞往高雄国际机场的班机。1981年8月22日,一架隶属于远东航空的波音737-222型客机在执行此航班任务时,于空中解体并坠毁在苗栗县三义乡
  • 法裔加拿大人法裔加拿大人(法语:Canadien français,英语:French Canadian,加拿大英语及法语也使用Canadien)一般指十七和十八世纪到达新法兰西的法国殖民者的后代。现今,法裔加拿大人构成加拿
  • 航天发射场name = 'Aero', description = '航空太空科技(航空航天科技)', content = {{ type = 'text', text = [=[本页面没有类似于NoteTA的数量限制。 请自行修改分类名。在NoteTA样板
  • 圣伊莎贝尔圣伊莎贝尔国家森林(英语:San Isabel National Forest)是美国的一座国家森林,面积4,533.42平方公里,是科罗拉多州的11座美国国家森林之一,阿尔伯特峰位于境内。
  • 暗沙暗沙指覆盖有碎屑沙粒的珊瑚礁体,在海平面以下,在较浅的位置(较深且表面平坦的称作暗滩,有时会露出水面者称暗礁)。在南海海域有大量的暗沙,如曾母暗沙、北康暗沙、南康暗沙等。
  • 疯狂疯狂或疯癫(英语:Insanity)是人在异常的心理或表现模式下的一组行为。疯狂可构成对社会规范的违反,包括伤害自我、伤害他人等,但并非所有的伤害行为都是疯狂所引起。类似地,并非所
  • 激光物理学雷射科学(英语:Laser science),一译激光科学,又称激光物理学(laser physics),是光学的分支,以研究激光的理论与实作方式为主。激光科学包括量子电子学、激光产生(英语:Laser constructi
  • 罗马帝国皇帝罗马皇帝是罗马帝国时期的最高头衔,是身兼国家元首和政府首脑的最高领导人。在欧洲历史中,皇帝(拉丁语:Imperator;英语:emperor)源自于古罗马时期,音译为“英白拉多”,原意是统帅,源自