序列组装

✍ dations ◷ 2024-12-22 17:20:57 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 疝(Hernia),俗称疝气,其最初的意义是“腹痛”,但后世多特指“少腹坠痛”的狐疝,相当于现代医学的“腹股沟疝”。医学上的疝气指的是器官,例如肠子,经由腔室的孔道离开原先的位置。有
  • 台中市政府卫生局台中市政府卫生局(简称台中市卫生局),为台湾台中市的卫生管理机关,隶属于台中市政府,负责台中市的卫生、食品、药品、医疗等事务。2010年12月25日因台中县市合并升格,原台中市卫生
  • 魁北克人党魁北克人党(法语:Parti Québécois),简称魁人党,是加拿大魁北克省的一个左翼省级政党。该党以魁北克独立为宗旨,并支持劳工运动。1968年由瑞内·勒维克创建,2007年起宝琳·马华担
  • 全球二十大半导体厂商全球二十大半导体厂商(Worldwide Top 20 Semiconductor Sales Leaders)列出1987年以来全球前二十大半导体厂商。所谓的半导体厂商可区分成三种:根据全球半导体贸易统计组织(WSTS
  • 希尔斯云内奥尔特云(英语:Inner Oort cloud),又称希尔斯云(英语:Hills cloud)是一个推测存在的星周盘区域,位于距太阳3千到2万天文单位之间的空间,处于柯伊伯带外侧、奥尔特云内侧。根据推测,
  • 被遗忘的国度被遗忘的国度(Forgotten Realms)是TSR公司设计的一个关于著名纸上角色扮演游戏龙与地下城的战役设定。在1980年代是游戏界称之为“金盒子”系列的主轴之一。由游戏设计者艾德
  • 约翰·多恩约翰·多恩(又译邓约翰;英语:John Donne, 1572年-1631年3月31日)是英国詹姆斯一世时期的玄学派诗人,他的作品包括十四行诗、爱情诗、宗教诗、拉丁译本、隽语、挽歌、歌词等。出生
  • 唐仲璋唐仲璋(1905年12月10日-1993年7月21日),中国生物学家。福建福州人。1931年毕业于福建协和大学,获理学士学位。1949年获美国约翰·霍普金斯大学科学硕士学位。曾任厦门大学教授。
  • 汉普夏猪汉普夏猪(Hampshire)是猪的品种之一。汉普夏猪可能是目前美国最古老的猪种,并在美国现有记录最多的猪种中排名第三。汉普夏猪以良好的肌肉质量著称。作为肉用动物,汉普夏猪有着
  • 单克隆抗体单株抗体(英语:monoclonal antibody,缩写:mAb),简称单抗,是仅由一种类型的免疫细胞制造出来的抗体,相对于多克隆抗体(由多种类型的B细胞所制造出来的一种抗体)。单克隆抗体由可以制造