加权相关网络分析

✍ dations ◷ 2025-06-22 14:13:24 #加权相关网络分析

加权相关网络分析也称为加权基因共表达网络分析,是一种广泛使用的数据挖掘方法,它用两两变量间相关系数研究生物网络。它适用于高维度数据集,在基因组学领域应用的最为广泛。

此分析假定基因网络服从无尺度分布,定义基因共表达相关矩阵,计算生成邻接矩阵,然后计算各个节点的相异系数,建立分层聚类树。此树不同分支代表不同的基因模块,模块内基因有较高的共表达水平,从中可以鉴定出枢纽基因。可通过基因网络与表型之间联系,最终找到表型的靶点基因、基因网络。此分析还可以用于研究共表达模块之间的关系、比较不同网络的网络拓扑学(差异网络分析)。加权基因共表达网络分析可以进行数据提炼(与斜交因子分析相关)、聚类分析(模糊聚类)、特征选择方法(比如,进行基因筛选)、综合互补(基因组)数据的框架(根据数量变量之间的加权相关性)和探索性数据分析。

虽然加权基因共表达网络分析结合了很多传统数据探索技术,易于理解的网络语言和分析框架使它优于任何标准的分析方法。由于使用网络方法,同时适合整合互补基因组的数据,它可认为是一种系统生物学或系统遗传数据的分析方法。加权基因共表达网络分析通过在相似的模块间选择模块间枢纽基因,也使基于网络的元分析技术成为可能。

加权基因共表达网络分析方法是加州大学洛杉矶分校大卫·格芬医学院人类遗传学教授、加州大学洛杉矶分校菲尔丁公共卫生学院生物统计学教授Steve Horvath、他在加州大学洛杉矶分校的同事、实验室成员(主要有Peter Langfelder、Bin Zhang、Jun Dong)联合创立的。研究的很大部分是应用领域的研究者合作产生的。加权相关网络是与癌症研究者Paul Mischel、Stanley F. Nelson和神经科学家Daniel H. Geschwind、Michael C. Oldham的讨论后发明的(根据里的致谢章节)。存在很多关于依赖网络、自由尺度网络和共表达网络的研究文献。

第一,指定基因共表达相似性指标来定义网络。我们用 s i j {displaystyle s_{ij}} 表示基因i和j之间的基因共表达相似性。很多共表达研究都使用相关性的绝对值,作为无符号共表达相似指标,

s i j u n s i g n e d = | c o r ( x i , x j ) | {displaystyle s_{ij}^{unsigned}=|cor(x_{i},x_{j})|}

公式里,多个样本中基因表达量构成了基因表达谱 x i {displaystyle x_{i}} x j {displaystyle x_{j}} 。然而,使用相关性的绝对值就不区分基因的抑制和激活,造成了生物学信息的损失。而在有符号网络中,基因之间的相似性表达了其表达谱的相关方向。为定义基因表达谱 x i {displaystyle x_{i}} x j {displaystyle x_{j}} 之间一个有符号共表达指标,我们可以使用对相关性的简单转换:

s i j s i g n e d = 0.5 + 0.5 c o r ( x i , x j ) {displaystyle s_{ij}^{signed}=0.5+0.5cor(x_{i},x_{j})}

与无符号指标 s i j u n s i g n e d {displaystyle s_{ij}^{unsigned}} 一样,有符号相似性 s i j s i g n e d {displaystyle s_{ij}^{signed}} 取0和1之间的值。请注意,两个表达量相反的基因在无符号时等于1,有符号时等于0;两个表达量无相关性的基因,无符号时等于0,有符号时等于0.5。

下一步,使用邻接矩阵(网络) A = {displaystyle A=} 定量确定两个基因相互连接的程度。将共表达相似性矩阵 S = {displaystyle S=} 设定阈值定义为 A {displaystyle A} 。对相似性指标 S {displaystyle S} 设立固定的阈值会将数据分为两组,生成无权重基因共表达网络。如果 s i j > τ {displaystyle s_{ij}>tau } ,无权重网络邻接矩阵设定为1,否则设定为0。因为设定固定的阈值会将基因连接分成两组,对阈值的选择较为敏感,造成共表达信息的损失。如果不设固定阈值,共表达信息连续的特性就得以保留。加权基因共表达网络分析使用以下的幂函数评估连接强度:

a i j = ( s i j ) β {textstyle a_{ij}=(s_{ij})^{beta }} ,

β {displaystyle beta } 是不固定阈值的参数。无符号和有符号网络分别使用 β = 6 {displaystyle beta =6} β = 12 {displaystyle beta =12} 作为默认值。 β {displaystyle beta } 也可以使用无尺度拓扑标准进行选择,即选择 β {displaystyle beta } 可达成无尺度网络的最小值 。

由于 l o g ( a i j ) = β l o g ( s i j ) {displaystyle log(a_{ij})=beta log(s_{ij})} ,加权网络邻接矩阵与共表达相似矩阵线性的对数值相关。 β {displaystyle beta } 取高值,会将高度相似性转换为高度邻接矩阵、低相似度推向0。由于这种应用于成对相关矩阵的不固定阈值的步骤会产生加权邻接矩阵,随后的分析称为加权基因共表达网络分析。

模块中心分析的重要一步是:用网络拓扑指标将基因集聚为网络模块。简单来说,一对基因如果相互连接,距离会较近。按照惯例,两个基因的距离在0到1之间。通常来说,加权基因共表达网络分析使用拓扑重叠指标作为距离。

拓扑重叠指标将两个基因之间的邻接矩阵和两个基因与其他基因之间的连接强度混合,是网络相互连接性稳健的指标。将此指标输入平均连锁层级聚类。动态分支切割法生成的聚类结果中的分支,就成了模块。之后,在特定模块内的基因与模块特征向量一起,可以被视为标准模块表达数据最好的总结。标准化表达谱的第一个主成分定义为模块特征向量。为了寻找与感兴趣的临床性状相关的模块,模块特征向量之后与其进行相关性比较,得出特征向量显著指标。人们可以在模块特征向量之间建立共表达网络,即以节点为模块的网络。

为了判断特定模块的模块间枢纽基因,可以使用两种连接指标。第一种称为 k M E i = c o r ( x i , M E ) {displaystyle kME_{i}=cor(x_{i},ME)} ,是将基因与相关模块的特征向量进行相关定义的。第二种称为kIN,定义为邻接矩阵相关模块基因的和。实际运用中,两种指标是等同的。为了测试一个模块是否存在于另一个数据集,可以使用多种网络统计量,如 Z s u m m a r y {displaystyle Zsummary}

可以将加权相关网络理解成特殊形式的加权网络、依赖网络或者相关网络。加权相关网络分析由于以下几点,很具吸引力:

加权基因共表达网络分析被广泛应用于在分析表达数据(即转录数据)。如,寻找模块间枢纽基因。

在系统遗传学应用中,此分析常用于数据提炼步骤,模块由“模块特征向量”表示。可用模块特征向量将模块与临床性状相关联。特征向量网络是模块特征向量之间的共表达网络(即节点为模块的网络)。 神经科学应用加权基因共表达网络分析,分析微阵列数据、单细胞RNA测序数据、DNA甲基化数据、miRNA数据、肽计数、人类微生物组计划数据(16S rRNA基因序列)的基因组数据。其他的应用包括:脑影像数据,如功能性磁共振成像数据。

加权基因共表达网络分析的R软件包提供了加权网络分析所有功能(模块建立、节点基因选择、模块保存统计、差异网络分析、网络统计)的函数。可以通过CRAN下载加权基因共表达网络分析包。

相关

  • California Institute of Technology加州理工学院(California Institute of Technology,缩写:Caltech)是一所位于美国加利福尼亚州帕萨迪纳的私立研究型大学,创建于1891年,以自然科学及工程学著称,常被评为世界前十的
  • 狮甲站狮甲站是高雄捷运红线的一座捷运车站,位于高雄市前镇区中山二路及复兴三路、民权二路一带,古代为戏狮甲庄的大林尾聚落;而古代戏狮甲庄的戏狮甲聚落位于今一心路于文横至林森路
  • 古城镇 (成都市)古城镇,是中华人民共和国四川省成都市郫都区下辖的一个乡镇级行政单位。2019年12月,撤销古城镇,将其所属行政区域划归三道堰镇管辖。古城镇下辖以下地区:马街社区、八角村、中平
  • 梅尔维尔·赫斯科维茨梅尔维尔·赫斯科维茨(Melville Jean Herskovits)(1895年-1963年),美国人类学家,美国学术界非洲人及非洲裔美国人研究的奠基者。他曾师从于人类学家法兰兹·鲍亚士,并因此受到他的
  • 黛安娜·罗斯黛安娜·欧内斯婷·厄尔·罗斯(英语:Diana Ernestine Earle Ross,1944年3月26日-),女,美国歌手及演员,是1960年代摩城唱片组合至上女声的主唱。1970年退出组合后,她开始转型成为一个独唱女歌手,她在电影以及百老汇剧院取得极大的成功。她在《Lady Sings the Blues》一剧中凭着饰演已故歌手比莉·哈乐黛角色获提名1972年奥斯卡最佳女主角奖,同时亦赢得该年金球奖。她共赢取8个全美音乐奖,囊括12个格莱美奖提名。1976年,《公告牌》杂志把她封为年代最佳女艺人。
  • 圆叶风铃草圆叶风铃草(学名:)为桔梗科风铃草属下的一个种,分布北半球温带,生长在草地及欧石南荒地。多年生草本,高约30公分,珠形纤巧,茎及花梗细长。叶片为暗绿或蓝绿的线形叶,先端渐尖,叶柄小或无,匍匐根着生有心型的基生叶。白色至深蓝色的钟形花有五枚尖端裂瓣,花初生直立,绽放后会弯垂。加拿大土著以其根入药,亚伯达省的克里人利用根外敷止血、消肿并促进伤口愈合。 维基共享资源上有关圆叶风铃草的多媒体资源 维基物种上有关圆叶风铃草的分类信息
  • 丹尼·巴思丹尼尔·坦维尔·“丹尼”·巴思(英语:Daniel Tanveer "Danny" Batth;1990年9月21日-)是一位英格兰足球运动员,在场上的位置是后卫。现时效力于英甲球队桑德兰,曾效力于伍尔弗汉普顿流浪者。他曾被外借至锡周三等球队。
  • 芒贝图人芒贝图人(英语:Mangbetu people)或称孟格别图人,主要居住于刚果民主共和国的东方省(英语:東方省 (剛果民主共和國))。芒贝图人使用叫做金贝图(kingbetu)的语言,是林加拉语的方言,芒贝图人称这种语言为尼芒贝图(nemangbetu)。属于中苏丹语族(英语:Central_Sudanic_languages)的一种。芒贝图人的艺术与音乐文化发达,芒贝图竖琴(或芒贝图吉他)便是与芒贝图人有关的一种乐器。竖琴价值甚至曾高达10万美金。音乐家曾寻找芒贝图人的音乐来制作他们的作品。。芒贝图人由
  • 雍陶雍陶(?-?)字国钧,晚唐成都人。生卒年均不详。少年家贫。太和三年(829年)十一月,目睹南诏入寇西川,十二月攻陷成都外城,掠走数万人。一说当时雍陶亦被俘,随着浪迹云南,数年后得以返蜀。大和八年(834年)陈宽榜进士。历官国子学《毛诗》博士,与贾岛、殷尧藩、无可、徐凝、章孝标友善,以琴樽诗翰相娱。大中八年,出京为简州(今四川简阳县)刺史。晚年事迹失载。雍陶是晚唐诗人,约与与杜牧同时期,自比谢宣城、柳吴兴。其诗清丽婉转,如《题君山》:“烟波不动影沉沉,碧色全无翠色深。疑是水仙梳洗处,一螺青黛镜中心。”丁仪评
  • 哈巴德哈巴德或哈巴德-路巴维茨是犹太教正统派哈西迪的运动,是世界上最知名的哈西迪运动之一。犹太启蒙运动后,大量犹太人世俗化或被所在国家同化。为了应对这一趋势,犹太教内部出现了哈巴德运动,劝人“重新回到上帝的身边”。1813年至1915年,活动的中心在俄罗斯帝国路巴维茨(英语:Lyubavichi, Rudnyansky District, Smolensk Oblast)。20世纪30年代,第六代拉比伊扎克·施尼尔森(英语:Yitzchak Schneersohn)将运动重心转移至波兰。1951年,梅纳凯姆·施