泛基因组学

✍ dations ◷ 2025-07-18 12:10:06 #泛基因组学
泛基因组是为描述一个物种基因组而提出的概念,指同一细菌物种中所有菌株中所有基因的集合,而不单纯以某个菌株为一个物种的全基因组。会需要使用泛基因组的原因是水平基因转移造成不同菌株之间所拥有的基因相差甚大。泛基因组的英文是Pan-genome, Pan- 来自希腊语词汇 παν,意思是“全部的”。在1987年,细菌物种的概念是大于70%的DNA相关联,并具有相同的表型性。但是随着对大量细菌基因组测序的完成,这种概念区分方法变得模糊、不确定——测定同一物种的不同菌株,常会有新的基因出现。这个概念常被用于总体基因体学、演化生物学,应用的物种也有被延伸到植物或古菌。泛基因组包含核心基因和附加基因。核心基因是所有个体都拥有的基因,附加基因则为非核心基因的基因。在附加基因组中,若仅有一个个体具有该基因,则可称之为独特基因(英语:unique gene)。为了允许注解及基因序列组装的错误,对核心基因组较为宽松的定义可称之为软核心基因(soft core gene),其定义为于 95%以上的个体具有此基因。各物种有两种泛基因组,分别为开放型泛基因组和闭合型泛基因组。闭合型泛基因组的物种随着被定序的个体数量增加,泛基因组的大小增加有限,使得完整的泛基因组大小是在数学上可以预测的。相反地,开放型基因组的物种随着定序的个体增加,其泛基因组的大小并未收敛。影响物种是为何种泛基因组,受到族群大小、水平基因转移等影响。最早的泛基因组概念是由Tettelin等人在研究六株B型链球菌的菌株时提出的 ,最主要的概念就是找出所有菌株共有的核心基因(约占每只菌株基因体的80%),以及非必须的附加基因(有可能只存在于一小部分的菌株中,或甚至只出现在单一菌株的基因体中),并透过核心基因与附加基因的组合来描述B型链球菌。外推法模型预测这只细菌的基因库会持续增长,且即使在加入数百只细菌后,新的基因将会不断加入,显示这只细菌的总基因库相当庞大。44株肺炎链球菌菌株的泛基因体分析与B型链球菌有着不同的特征形态—虽然每这44株细菌的基因体都会贡献新的基因给肺炎链球菌的基因库,但是基因增长速度会随着细菌数量的增加而明显变慢。事实上,外推法预测在50只细菌加入后,新基因的数量将会降到零。显而易见的是这个特征并非所有细菌共有的。对肺炎链球菌来说,新基因最主要的来源是和缓链球菌的水平基因转移。肺炎链球菌的泛基因大小将会与菌株数量成对数级增加,而与新加入基因体的核苷酸多形位点数量形成线性关系,显示年纪越大的菌株将会越有可能得到新基因。最后一个例子是原绿球藻的核心基因体与完整的泛基因体大小比对。 在这个例子中,核心基因体明显地比泛基因体小很多,而不同生态型的原绿球藻会有着不同的基因组合。另一篇2015年的研究也在从人类身上不同部位分离普雷沃氏菌属,并重建泛基因体后,发现这只细菌有着庞大基因库,且属于开放式泛基因组类型。随着越来越多人关注泛基因体学,有更多的软件可以用来建立与分析泛基因体、绘图、注解。2014 年底最高引用数的的软件为 Panseq 以及 pan-genome analysis pipeline(PGAP)。其他的选择包含 BPGA - A Pan-Genome Analysis Pipepline for prokaryotic genomes、GET_HOMOLOGUES、Roary 与 CD-HIT GET_HOMOLOGUES or Roary. 。针对各家软件的比较,可以参照 2015 年的一篇文章。针对植物泛基因体的软件有 GET-HOMOLOGUES-EST 。有关植物泛基因体可以参照 2015 的一篇文章。

相关

  • 遗传指纹分析遗传指纹分析(Genetic fingerprinting)有时也称为基因标定或基因鉴定等,是一种使用通过比较DNA片段来区别不同个体的方法。于1985年,由莱斯特大学的亚历克·杰弗里斯教授发明。
  • 霾害霾(英语:haze,又称雾霾、烟霾、烟霞等)是一种由固体颗粒形成的空气污染,其核心物质是空气中悬浮的灰尘颗粒,气象学上称为气溶胶颗粒。霾中含有数百种大气化学颗粒物质,它们在人们毫
  • 西伯利亚大陆西伯利亚大陆(Siberia)又名安加拉古陆(Angaraland),是个史前克拉通(稳定地块),存在于埃迪卡拉纪到二叠纪之间。现在的中西伯利亚高原是昔日西伯利亚大陆的残余部分。阿非利加洲(非洲)
  • 新热带界新热带界,是组成地球陆地表面的八个生物地理分布区之一。它包括热带美洲大陆的热带陆地生态区和南美洲全部温带区。在生物地理学中,新热带界是八个陆地生物地理分布区之一。它
  • 人类牙齿人类牙齿的主要功能是通过切割和磨碎的方式来分解食物,并且为吞咽和消化作准备。人类共有三种不同类型的牙齿,即门齿、犬齿和大臼齿。每种类型的牙齿有不同的用途。门齿用于切
  • 时间序列时间序列(英语:time series)是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数
  • 迷幻蘑菇赛洛西宾蕈类(英语:psilocybin mushroom),即裸盖菇,俗称迷幻蘑菇、神奇魔菇或魔菇,是含有裸盖菇素和脱磷酸裸盖菇素等迷幻物质的蕈类。它们在生物属分类上涵盖田头菇属(Agrocybe)、
  • 可可碱可可碱(英语:Theobromine)是一个甲基黄嘌呤类生物碱,存在于可可树和巧克力中。同属这一类的还有茶碱和咖啡因。其英文名称theobromine虽有bromine拼字,却不含溴元素,系因两者同样
  • 亚变种在植物分类学中,变种(拉丁文:varietas,简称写做 var.)为一种分类级别,位于种与亚种之下、变型(英语:Form (botany))之上;作为种下分类群,生物学名会采用三名法。有一种枕形仙人掌“Esco
  • 全球变暖潜能全球暖化潜势(Global warming potential,简称GWP),亦作全球升温潜能值,是衡量温室气体对全球暖化影响的一种手段。是将特定气体和相同质量二氧化碳比较之下,造成全球暖化的相对能