基因共表达网络

✍ dations ◷ 2025-04-04 11:19:30 #计算生物学,系统生物学,生物信息学

基因共表达网络是一种无向图,每个节点代表基因,如果二者存在明显的共表达关系,就用一个边连接两个节点。 对不同的样本或者不同的实验条件建立基因表达谱后,可以通过查看不同样本间产生相似表达模式的基因对建立基因共表达网络。原因是,两个共表达基因在不同的样本中应以相同模式变化。共同表达的基因是由同一转录控制程序控制、功能相关、同一通路或蛋白结构的组成部分,所以基因共表达网络具有生物学意义。

基因共表达网络不指定共表达关系的方向和类型。然而在基因调控网络中,边是有方向的,代表着反应、变换、互作、激活或者抑制的生化过程。而基因共表达网络并不尝试判定因果关系,边只代表基因之间的相关或者依赖关系。有类似功能或参与统一生物功能的基因会产生很多相互作用,在基因共表达网络中会体现为模块或连接丰富的子图。

基因共表达网络一般是用高通量基因表达谱技术(如微阵列和RNA测序)生成的数据集建立的。

Butte和Kohane在1999年提出了基因共表达网络的概念。他们到很多医学实验室收集了很多病人的检验数据,计算了Pearson相关系数,用网络来表示,将超过一定水平的数据进行连接(比如:胰岛素与血糖水平)。Bute和Kohane又把这种方法与互信息一起作为共表达的指标,并使用基因表达数据建立了第一个基因共表达网络。

研究人员为构建基因共表达网络开发了不少方法。根本上,他们都分两步:计算共表达指标、选择显著阈值。首先,选择共表达指标,之后用这个指标计算每一对基因之间的相似分数。之后,确定阈值,将高于阈值认定为具有显著的共表达关系,用边在网络中连接。

通常用矩阵表示构建基因共表达网络的输入数据。如果我们有个样本个基因的表达值,输入数据就会是矩阵(称作表达矩阵)。比如,一个微阵列实验中,测量各级各样本的几千个基因的表达值。第一步,先对表达矩阵每两行计算相似分数(共表达指标)。之后的矩阵就会是一个矩阵,称作相似矩阵。这个矩阵的每个元素都是有关两个基因共同改变幅度大小的。之后,将相关矩阵中每个高于特定阈值的指标都替换成1,其他的替换成0。此时的矩阵成为邻接矩阵,代表所创建的基因共表达网络的图。此矩阵中,每个元素都显示两个基因是否在网络中相互连接。

不同样本各个基因的表达值都可以用向量来表示,计算两组基因之间的共表达指标就和计算两组向量之间部分指标相同。

基因共表达网络最常用的共表达指标是皮尔逊积矩相关系数、互信息、斯皮尔曼等级相关系数和欧几里得距离 。欧几里得距离计算两组向量之间的几何距离,同时会考虑两组基因表达值的方向和大小。互信息指,知道一个基因的表达水平或降低后,另一个基因表达水平不确定性的幅度。Pearson相关系数测量两组基因之间的一致性,是否一起上升下降。Spearman秩相关是使用基因表达量的排名来计算Pearson相关系数的方法。还有偏相关、回归和混合偏相关和互信息的方法。

每种指标都各有优缺点。当功能相关的基因绝对值差别很大时,欧几里得距离就不适用了。另外,如果两个基因表达量都很低,产生的相关只是随机的,仍可能在欧几里得空间中相近。互信息的一个优点是可以探测非线性关系;但是由于探测复杂的非线性关系一般没有生物学意义,这也可能成为一种缺点。另外,互信息指标需要较大样本量才能算出较好的结果。Spearman秩对异常值的考虑较好,但是对表达值不敏感,小样本数时可能出现很多假阳性结果。

基因共表达网络的最流行指标是Pearson相关系数。Pearson相关系数处于-1和1之间,绝对值接近1说明相关性很强。

Pearson相关系数有两个缺点:它只能检测线性关系,对于异常值敏感。而且,它要求基因表达数据服从正态分布。Song et al.认为,可以很好地替代Pearson相关系数。“Bicor是一个基于中位数的相关,比Pearson相关更稳健,比Spearman相关更强大”。有人认为,因为“多数基因对符合线性或单调关系”,所以“在测量静止数据时,可以安全地用相关网络代替互信息网络”。

建立基因共表达网络有多种选择阈值的方法。最简单的是,选择一个共表达的截点 ,选择共表达将这个超过这个截点的边视作共表达。另一个方法使用费雪变换根据样本量计算每个相关性的标准分数。z-分数于是转换为每一个相关性的p值,之后对p值设定截点。另一些方法置换数据,根据置换后数据集相关性的分布计算z分数。林有一些使用的方法包括根据集聚系数的阈值选择法和随机矩阵理论。

p值相关的方法的问题是,p值是常规的0.01或0.05,而非生物学意义。

WGCNA是建立和分析加权基因共表达网络的一个框架。

WGCNA方法会选择出根据无尺度拓扑的基因共表达网络选择阈值。这种方法会建立出几个阈值的网络,选择出其中满足无尺度网络拓扑的网络。而且,WGCNA方法会建立出一个所有可能的边都出现在网络中的加权网络,但是每个边有一个权重,显示出此边共表达关系的显著性。

相关

  • 骨桥蛋白n/an/an/an/an/an/an/an/an/an/a结构 / ECOD骨桥蛋白(英语:Osteopontin,缩写OPN)也被称为骨涎蛋白I(BSP-1或BNSP),早期T淋巴细胞激活因子(ETA-1),分泌磷蛋白1(SPP1)和抗立克次体(Ric),是
  • 血浆蛋白血浆蛋白(英语:plasma proteins)——又被称为血液蛋白(英语:blood proteins)——是血浆中的蛋白质,是血液中除了血红蛋白以外的蛋白质。有时也有人用血清蛋白来称呼它,但是血浆蛋白
  • 发声发声态(英语:phonation)指发声时声门活动的状态。最常见的两种发声态,是清声(喉开态)和浊声(常态浊声),其差异在于声带是否振动,清声不振动,而浊声振动。带清声的音,叫清音;带浊声的音,叫
  • 伊儿汗国伊儿汗国(蒙古语:.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag Tig","Menk Har_a Tig","Menk Scnin Tig","Oyun Gurban Ulus
  • 平方平方平均数(Quadratic mean),简称方均根(Root Mean Square,缩写为 RMS),是2次方的广义平均数的表达式,也可叫做2次幂平均数。其计算公式是:在连续函数
  • 罗德·拉沃罗德尼·乔治·拉沃,AC,MBE(英语:Rodney George Laver,1938年8月9日-),又名罗德·拉沃,是前世界排名第一的澳大利亚男子网球运动员,他保有网球史上赢得最多单打冠军的纪录,生涯总计赢得
  • 日本人口问题日本人口问题,指因日本政府的人口政策和人口结构所引发的一系列等相关的问题。根据总务省统计局公布的数据,1亿2675万5千人(2017年8月确定值)。因日本的经济社会的发展,日本面临
  • 内阁办公厅首席捕鼠大臣内阁办公厅首席捕鼠大臣(英语:Chief Mouser to the Cabinet Office),又译内阁办公厅首席捕鼠官,是居于唐宁街10号的英国首相家猫的头衔,历史上仅韩福瑞(英语:Humphrey (cat))和拉里两
  • 2019冠状病毒病黎巴嫩疫情2019冠状病毒病黎巴嫩疫情,介绍在2019新型冠状病毒疫情中,在黎巴嫩发生的情况。2020年2月21日,黎巴嫩确诊首例病例,一名来自伊朗库姆的45岁女性病毒检测呈阳性,被转移到贝鲁特一
  • 三氯化金三氯化金,俗称氯化金,是最常见的无机金化合物,化学式是AuCl3。名称中的罗马数字表明金的化合价为+3,这是它众多化合物中最为稳定的价态。金亦会形成另一种氯化物——氯化亚金(AuC