基因预测

✍ dations ◷ 2025-11-28 06:59:45 #生物信息学

基因预测，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。基因识别是基因组研究的基础。

在早期，基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析，我们能够获知它们在染色体上的顺序。若进行大量类似的分析，我们可以确定各个基因的大致位置。现在，由于人类已经获得了巨大数量的基因组信息，依靠较慢的实验分析已不能满足基因识别的需要，而基于计算机算法的基因识别得到了长足的发展，成为了基因识别的主要手段。

识别具有生物学功能的片段与判定该片段（或其对应的产品）的功能是两个不同的概念，后者通常需要通过基因敲除等的实验手段来决定。不过，生物信息学的前沿研究正在使得由基因序列预测基因功能变得愈发可能。

在基因的间接识别法（Extrinsic Approach）中，人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列；而由给定的蛋白质序列，也可以由密码子反转确定一族可能的DNA序列。因此，在线索的提示下搜寻工作相对较为容易，搜寻算法的关键在于提高效率，并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。

若DNA序列的某一片段与mRNA或蛋白质序列具有高度相似性，这说明该DNA片段极有可能是蛋白编码基因。但是，测定mRNA或蛋白质序列的成本高昂，而且在复杂的生物体中，任意确定的时刻往往只有一部分基因得到了表达。这意味着从任何单个细胞的mRNA和蛋白质上都只能获得一小部分基因的信息；要想得到更为完整的信息，不得不对成百上千个不同状态的细胞中的mRNA和蛋白质测序。这是相当困难的。比如，某些人类基因只在胚胎或胎儿时期才得到表达，对它们的研究就会受到道德因素的制约。

尽管有以上困难，对人类自身和一些常见的实验生物如老鼠和酵母菌，人们已经建立了大量转录和蛋白质序列的数据库。如RefSeq数据库，Ensembl数据库等等。但这些数据库既不完整，也含有相当数量的错误。

鉴于间接识别法的种种缺陷，仅仅由DNA序列信息预测蛋白质编码基因的从头计算法（ Approach）就显得十分重要了。一般意义上基因具有两种类型的特征，一类特征是“信号”，由一些特殊的序列构成，通常预示着其周围存在着一个基因；另一类特征是“内容”，即蛋白质编码基因所具有的某些统计学特征。使用方法识别基因又称为基因预测。通常我们仍需借助实验证实预测的DNA片段是否具有生物学功能。

在原核生物中，基因往往具有特定且容易识别的启动子序列（信号），如Pribnow盒和转录因子。与此同时，构成蛋白质编码的序列构成一个连续的开放阅读框（内容），其长度约为数百个到数千个碱基对（依据该长度区间可以筛选合适的密码子）。除此之外，原核生物的蛋白质编码还具有其他一些容易判别的统计学的特征。这使得对原核生物的基因预测能达到相对较高的精度。

对真核生物（尤其是复杂的生物如人类）的基因预测则相当有挑战性。一方面，真核生物中的启动子和其他控制信号更为复杂，还未被很好的了解。两个被真核生物基因搜寻器识别到的讯号例子有CpG islands及poly(A) tail的结合点。

另一方面，由于真核生物所具有的splicing机制，基因中一个蛋白质编码序列被分为了若干段（外显子），中间由非编码序列连接（基因内区）。人类的一个普通蛋白质编码基因可能被分为了十几个外显子，其中每个外显子的长度少于200个碱基对，而某些外显子更可能只有二三十个碱基对长。因而蛋白质编码的一些统计学特征变得难于判别。

高级的基因识别算法常使用更加复杂的概率论模型，如隐马尔可夫模型。Glimmer是一个广泛应用的高级基因识别程序，它对原核生物基因的预测已非常精确，相比之下，对真核生物的预测则效果有限。GENSCAN计划是一个著名的例子。

由于多个物种的基因组序列已完全测出，使得比较基因组学得以发展，并产生了新的基因识别的方法。该方法基于如下原理：自然选择的力量使得基因和DNA序列上具有生物学功能的其他片段较其他部分有较慢的变异速率，但前者的变异更有可能对生物体的生存产生负面影响，因而难以得到保存。因此，通过比较相关的物种的DNA序列，我们能够取得预测基因的新线索。2003年，通过对若干种酵母基因组的比较，人类对原先的基因识别结果作了较大的修改；类似的方法也正在应用于人类的基因组研究，并可能在将来的若干年内取得成果。

伪基因与基因非常相近，有非常高的序列同源性，但无法产生相同的蛋白质，虽然一旦作为基因定序的副产品，随着越来越多调控角色被发现，它们本身就成为预测目标。伪基因预测使用现有的序列相似性和从头算 () 方法，同时增加额外筛选条件和识别伪基因特征的方法。

伪基因预测可以使用定制的序列相似性方法，其定制的方式是增加额外的筛选条件。这可以使用失能检测 (disablement detection)，这个方法是去找寻无意义(nonsense)或是片段移动变异(frameshift mutations)，这些突变将截断或折叠其他功能性编码序列。另外，将DNA翻译成蛋白质序列可能比直接DNA同源性更有效。

感知器的筛选条件可以根据伪基因和基因之间的统计特性的差异来决定，例如，伪基因中CpG岛(CpG islands)的数量减少，或伪基因与它们的邻居之间的G-C含量的差异。信号传感器也可以用于伪基因，寻找没有内含子 (introns) 或多腺嘌呤尾巴 (poltadenine tails)。

相关

氟红霉素氟红霉素是一种大环内酯类抗生素。它是的红霉素（一种同类抗生素）的氟代物，其抗菌能力与红霉素相当，但较交沙霉素为优。氟红霉素对抑制部分梭状芽孢杆菌和脆性拟杆菌较有效。其较
鹿蹄草鹿蹄草（学名：Pyrola calliantha）为鹿蹄草科鹿蹄草属下的一个种。
比耶高原比耶高原（Bié Plateau），又称安哥拉中部高原（葡萄牙语：Planalto Central de Angola），是基本上全部位于安哥拉中部的一个高原，高度在1,520米至1,830米之间。许多河流从比耶高原为源
消化酵素消化酶（英语：digestive enzymes）是将聚合的高分子降解为他们的构建单元的酶类，以促进他们被身体吸收。消化酶类可在动物（及人）的消化管内找到，在那里帮助食物的消化，他们也存在于细
旧大港保安宫高雄站前保安宫，又称旧大港保安宫，是台湾高雄市三民区大港的庙宇，主奉闽南医神保生大帝（大道公）。旧大港保安宫现在庙宇建筑虽历经修建，但仍然保有早期传统庙宇的格局，是高雄市内现
西北地区西北地区（英语：Northwest Territories，法语：les Territoires du Nord-Ouest，因纽特语：ᓄᓇᑦᓯᐊᖅ）或西北领地，简称NWT，是加拿大一级行政区里面的三个“地区/领地”（Territory）之一，面
类似色色环（Color Wheel），又称色轮、色圈，是将可见光区域的颜色以圆环来表示，为色彩学的一个工具，一个基本色环通常包括12种不同的颜色。基础的十二色环由瑞士设计师约翰·伊登所提出，其
罗马皇帝列表这是罗马帝国历代皇帝一览表。奥古斯都于前27年创元首制，开始了罗马帝国时期。罗马皇位的承继方式一般为养子承继制，但也有亲子承继的。罗马多次出现两帝共治，甚至四帝共治。戴
山东地理山东省地处中国东部沿海、黄河下游，濒临黄海和渤海。全省陆地处于北纬34°22.9′至38°24.0′，114°47.5′至122°42.3′之间。省境南北最长约400公里，东西最宽约700余公里，陆地
牙髓病学牙髓病学（endodontics；希腊语词缀："endside-" 表"内部"、"odont-" 表"牙齿"；ICD-10 XI: K04.0-K04.9）是关于牙髓研究，及其治疗有关的牙科专业（英语：Specialty (dentistry)）。牙髓病治