序列组装

✍ dations ◷ 2025-06-08 07:22:52 #生物信息学

序列组装(Sequence assembly)是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算,将短片段的DNA建构成为较长的连续序列。此技术的创立,是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果,重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上(例如基因组霰弹枪定序,或者RNA转录体测序)。这一类的测序技术会产生大量的测序片段(read,复数reads),而这些片段的长度依照不同的技术,短为数十,长可至上万个碱基对(前者如Illumina的定序平台,后者如太平洋生物科学公司(英语:Pacific Biosciences)的SMRT-测序(英语:Single molecule real time sequencing)或奈米孔洞测序)。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是找到句子中重叠的部分,因为一旦找到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。不难想像,此过程的困难不仅仅在于需要进行大量的片段比对,还会因原本文章的复杂度而制造更多问题:例如原本的文章可能有许多重复的段落,而带有这些重复段落的文句可能会重叠在一起;又或者我们所拿到的句子中若有错别字,亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

依照参考序列的有无,序列组装可分为:

举例来说,在进行全基因组测序分析(英语:whole genome sequencing)时,de-novo组装可能被使用在非模式物种基因组的分析上,因为其没有临进物种的基因组提供参考。相反的,如果有有邻近或相同物种的基因组可做参考,则可使用mapping组装或引导式组装(genome guided assembly)。

De-novo 组装又可分为三种算法:

最早的序列组装程式大约在1980至1990年代初期被发明。其雏形是序列比对分析的程式。随着定序技术的进步以及被定序生物复杂度的增加(从小的病毒在质体至细菌和最后真核生物),序列组装程式所采用的算法也越趋复杂。基本上,组装程式都至少要能应付下面三大问题:

基因组组装程式Celera 和Arachne 在2000年被研发出来——当时科学家试着组装第一个较大型真核生物的基因组(果蝇),紧接着是隔年的人类基因组计划。这两个程式能处理约100至300亿个碱基对的基因组。随后,更大更复杂的组装程式也被发明,例如阿莫斯组装程式(AMOS, A Modular Open-source Assembler) 等。

下表列出了部分能够进行 de-novo 组装的程式。

相关

  • 青霉菌青霉菌是最常见的真菌(半知菌)中的一种。肉眼可见其孢子的颜色为蓝绿色,因而得名。但是并非所有青霉属的霉菌都为蓝绿色,也有白色或者绿色。在显微镜下,可见其呈笔一样形状的笔状
  • 海因里希·奥托·威兰海因里希·奥托·威兰(德语:Heinrich Otto Wieland,1877年6月4日-1957年8月5日)是一位德国化学家,终生致力于面对天然产物的有机化学研究,成功分离出多种毒素与生物碱。因对胆汁酸
  • T-MobileT-Mobile是一家跨国电信公司,是德国电信的子公司,属于Freemove联盟。T-Mobile在西欧和美国营运GSM网络并通过金融手段参与东欧和东南亚的网络营运。该公司拥有1.09亿用户,是世
  • 花鼓戏花鼓戏为一种在中国南方分布广泛的戏曲剧种。花鼓戏是湖南、湖北、安徽、广东各地的花鼓戏、采茶戏、灯戏和杨花柳等剧种的统称,其曲调来源于民间小调如花腔、口子调、筒子腔
  • 肾上腺增生症先天性肾上腺增生症是一种由于缺乏羟化酵素而导致脑下垂体的过度刺激,最后引起的肾上腺增生肥大疾病。美国每年有20万人罹此症。此会造成荷尔蒙过度分泌,引致部分男婴性早熟而
  • C03A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码C03(利尿药)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Collaboratin
  • 巴芬岛洋流巴芬岛洋流(Baffin Island Current)为一个由北冰洋巴芬湾西部沿着巴芬岛向南流的洋流。其源头为西格陵兰洋流及由北冰洋流出的水源。其流速约为每日17公里。
  • 多孢植物多孢植物(英语:Polysporangiophytes,也称polysporangiates或Polysporangiophyta),指的是在孢子体阶段有终止在孢子囊的分支的茎(轴)的植物。学名的意思即为有许多孢子囊的植物。演
  • 尤溪话尤溪县地处福建省中部,三明市所辖。东邻闽清县和永泰县,西连大田县和沙县,南接德化县,北毗南平市延平区,有“闽中明珠”之称,理学家朱熹的诞生地。面积3463平方千米,居全省各县(市、
  • 百事可乐百事可乐(英语:Pepsi)是美国百事公司推出的一种可乐,也是可口可乐的主要竞争对手。在全球总的可乐市场中,可口可乐占据上风;但在加拿大的魁北克省、印度,百事可乐销量却比可口可乐