基因预测

✍ dations ◷ 2025-07-07 06:55:56 #生物信息学

基因预测,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基因组研究的基础。

在早期,基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。现在,由于人类已经获得了巨大数量的基因组信息,依靠较慢的实验分析已不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。

识别具有生物学功能的片段与判定该片段(或其对应的产品)的功能是两个不同的概念,后者通常需要通过基因敲除等的实验手段来决定。不过,生物信息学的前沿研究正在使得由基因序列预测基因功能变得愈发可能。

在基因的间接识别法(Extrinsic Approach)中,人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列;而由给定的蛋白质序列,也可以由密码子反转确定一族可能的DNA序列。因此,在线索的提示下搜寻工作相对较为容易,搜寻算法的关键在于提高效率,并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。

若DNA序列的某一片段与mRNA或蛋白质序列具有高度相似性,这说明该DNA片段极有可能是蛋白编码基因。但是,测定mRNA或蛋白质序列的成本高昂,而且在复杂的生物体中,任意确定的时刻往往只有一部分基因得到了表达。这意味着从任何单个细胞的mRNA和蛋白质上都只能获得一小部分基因的信息;要想得到更为完整的信息,不得不对成百上千个不同状态的细胞中的mRNA和蛋白质测序。这是相当困难的。比如,某些人类基因只在胚胎或胎儿时期才得到表达,对它们的研究就会受到道德因素的制约。

尽管有以上困难,对人类自身和一些常见的实验生物如老鼠和酵母菌,人们已经建立了大量转录和蛋白质序列的数据库。如RefSeq数据库,Ensembl数据库等等。但这些数据库既不完整,也含有相当数量的错误。

鉴于间接识别法的种种缺陷,仅仅由DNA序列信息预测蛋白质编码基因的从头计算法( Approach)就显得十分重要了。一般意义上基因具有两种类型的特征,一类特征是“信号”,由一些特殊的序列构成,通常预示着其周围存在着一个基因;另一类特征是“内容”,即蛋白质编码基因所具有的某些统计学特征。使用方法识别基因又称为基因预测。通常我们仍需借助实验证实预测的DNA片段是否具有生物学功能。

在原核生物中,基因往往具有特定且容易识别的启动子序列(信号),如Pribnow盒和转录因子。与此同时,构成蛋白质编码的序列构成一个连续的开放阅读框(内容),其长度约为数百个到数千个碱基对(依据该长度区间可以筛选合适的密码子)。除此之外,原核生物的蛋白质编码还具有其他一些容易判别的统计学的特征。这使得对原核生物的基因预测能达到相对较高的精度。

对真核生物(尤其是复杂的生物如人类)的基因预测则相当有挑战性。一方面,真核生物中的启动子和其他控制信号更为复杂,还未被很好的了解。两个被真核生物基因搜寻器识别到的讯号例子有CpG islands及poly(A) tail的结合点。

另一方面,由于真核生物所具有的splicing机制,基因中一个蛋白质编码序列被分为了若干段(外显子),中间由非编码序列连接(基因内区)。人类的一个普通蛋白质编码基因可能被分为了十几个外显子,其中每个外显子的长度少于200个碱基对,而某些外显子更可能只有二三十个碱基对长。因而蛋白质编码的一些统计学特征变得难于判别。

高级的基因识别算法常使用更加复杂的概率论模型,如隐马尔可夫模型。Glimmer是一个广泛应用的高级基因识别程序,它对原核生物基因的预测已非常精确,相比之下,对真核生物的预测则效果有限。GENSCAN计划是一个著名的例子。

由于多个物种的基因组序列已完全测出,使得比较基因组学得以发展,并产生了新的基因识别的方法。该方法基于如下原理:自然选择的力量使得基因和DNA序列上具有生物学功能的其他片段较其他部分有较慢的变异速率,但前者的变异更有可能对生物体的生存产生负面影响,因而难以得到保存。因此,通过比较相关的物种的DNA序列,我们能够取得预测基因的新线索。2003年,通过对若干种酵母基因组的比较,人类对原先的基因识别结果作了较大的修改;类似的方法也正在应用于人类的基因组研究,并可能在将来的若干年内取得成果。

伪基因与基因非常相近,有非常高的序列同源性,但无法产生相同的蛋白质,虽然一旦作为基因定序的副产品,随着越来越多调控角色被发现,它们本身就成为预测目标。伪基因预测使用现有的序列相似性和从头算 () 方法,同时增加额外筛选条件和识别伪基因特征的方法。

伪基因预测可以使用定制的序列相似性方法,其定制的方式是增加额外的筛选条件。这可以使用失能检测 (disablement detection),这个方法是去找寻无意义(nonsense)或是片段移动变异(frameshift mutations),这些突变将截断或折叠其他功能性编码序列。另外,将DNA翻译成蛋白质序列可能比直接DNA同源性更有效。

感知器的筛选条件可以根据伪基因和基因之间的统计特性的差异来决定,例如,伪基因中CpG岛(CpG islands)的数量减少,或伪基因与它们的邻居之间的G-C含量的差异。信号传感器也可以用于伪基因,寻找没有内含子 (introns) 或多腺嘌呤尾巴 (poltadenine tails)。

相关

  • 韧皮部韧皮部是维管植物的输导组织,负责将光合作用的产物——葡萄糖,由进行光合作用的器官运输到植物的其他部位;或由储存养分的器官运输到需要能量的器官(双向运输)由筛分子,薄壁组织和
  • 5.8S rRNA在分子生物学中,5.8S核糖体RNA(5.8S rRNA)是指一类非编码RNA。它是真核生物核糖体的大亚基的组成成分,在蛋白质转译中起重要作用。RNA聚合酶I(英语:RNA polymerase I)先转录出沉降
  • 威热威热是安哥拉西北部的城市,也是威热省的首府,毗邻刚果民主共和国,是产自邻近地区的咖啡的重要贸易市场,海拔高度858米,该市西北面三公里有机场设施,2010年人口119,815。在葡萄牙占
  • 阿拉伯裔以色列人阿拉伯裔以色列人,指具有阿拉伯血统,同时以色列公民身份的以色列国民。他们大多是是巴勒斯坦后裔。阿拉伯裔以色列人多使用阿拉伯语(阿拉伯语巴勒斯坦方言,或称作巴勒斯坦阿拉伯
  • 噶尔丹策零噶尔丹策零,又译噶勒丹策凌(蒙古语:.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag Tig","Menk Har_a Tig","Menk Scnin Tig","O
  • 埃德蒙·伦道夫埃德蒙·詹宁斯·伦道夫(Edmund Jennings Randolph,1753年8月10日-1813年9月12日),美国律师、政治家,曾任弗吉尼亚州州长(1786年-1788年)、美国司法部长(1789年-1794年)和美国国务卿(17
  • 狐鼬属狐鼬(学名:Eira barbara),一种产于中美洲的鼬科动物,是狐鼬属下唯一一种,有9个亚种。中等体型,体长大约60厘米,有一条45厘米长的尾巴,体毛为深褐色或黑色,胸部有一块浅色块,体重为5公斤
  • 新焦铁路.mw-parser-output .RMbox{box-shadow:0 2px 2px 0 rgba(0,0,0,.14),0 1px 5px 0 rgba(0,0,0,.12),0 3px 1px -2px rgba(0,0,0,.2)}.mw-parser-output .RMinline{float:none
  • 资本品在经济学中,资本品(英语:capital good)是使用在生产过程中,用来生产产品或服务的耐用品,是由生产者投入的四种要素之一(另外三者为土地、人力及企业能力),四者合称为生产要素。在经济
  • Q型流感Q型流感或羊流感(英语:Q fever或Goat flu),又称Q热或寇热,是指一种在荷兰爆发的新流感。这种流感由贝纳氏立克次体(学名:)细菌引起 。这种流感能够通过羊群传染给人类。猫与狗也可能