CpG位点

✍ dations ◷ 2025-04-03 17:14:14 #分子遗传学,DNA

CpG位点(英语:CpG sites,或称为CG位点)是指DNA的某个区域,其上的碱基序列以胞嘧啶接着鸟嘌呤出现。“CpG”是“—C—磷酸—G—”的缩写 ,指磷酸二酯键连接了胞嘧啶和鸟嘌呤,其中C位于5'端而G位于3'端。

在CpG位点中的胞嘧啶可以被甲基化为5-甲基胞嘧啶。在哺乳动物中,基因内CpG位点的甲基化会改变此基因的表达,对这一表达调控的研究是表观遗传学的重要组成部分。涉及添加甲基基团的酶称为DNA甲基转移酶(英语:DNA methyltransferase)。

在哺乳动物中,70%到80%的CpG位点的胞嘧啶是甲基化的。

未甲基化的CpG位点可以被免疫系统的浆细胞样树突状细胞、单核细胞、NK细胞和B细胞上的TLR9(Toll样受体9)识别,来检测体内的微生物感染。

一个被发现已久的现象:相对于正常的随机概率期望,CpG位点在脊椎动物基因组中出现的概率非常低。以人类基因组为例(GC含量约为42%),CpG位点的出现概率应为0.21*0.21 = 4.41%;而人类基因组中CpG的实际含量约为1% -- 这尚未达到随机概率的四分之一。根据E Scarano等的论文,这一现象发生的原因是脊椎动物基因组中CpG的胞嘧啶被甲基化为5-甲基胞嘧啶后再发生脱氨作用变成胸腺嘧啶,从而形成了从C到T的突变,致使CpG位点的出现概率降低。这种现象被称为CG抑制(英语:CG suppression)(CG suppression)。

CpG岛是一个富含CpG位点的区域,但客观精确描述所谓“富含”的定义尚不明确。通常对于CpG岛的正式定义为:一个长度至少为200bp的片段,其GC含量高于50%,且“观察期望比”(observed-to-expexted)高于60%。

注:观察期望比:即CpG位点的观察值(片段实际含有的CpG位点数目)和“期待值”的比值。“期待值”通常有两种算法:(C*G)/LS或((C+G)/2)^2/LS。其中,C、G代表胞嘧啶和鸟嘌呤的数目;LS代表片段长度(length of sequence)。

很多哺乳动物基因组中的CpG岛和基因的起始位点相联系。因此,CpG岛的存在对于基因的预测和解释具有帮助作用。

在哺乳动物基因组中,CpG岛的序列长度通常为300-3000bp,在约40%的基因的启动子附近都有发现。在人基因组中则有约70%的基因启动子有高CpG含量。如前文提及,CpG位点的实际存在率比随机概率的结果要低得多。

2002年的某研究阐述了CpG岛的预测规则,使用这种规则可以排除一些高GC含量的基因组序列,如Alu重复序列。基于对人21和22号染色体的完全测序研究成果,长度大于500bp、GC含量高于55%、CpG位点“观察期望比”高于65%的DNA序列更有可能是“真正的”CpG岛。

CpG岛以至少达到60%的理论CpG位点含量(可达到4-6%)为特征,而基因组中平均CpG含量只有约1%(CG抑制)。和在基因编码区中的CpG位点不同,在基因正常表达时,位于基因启动子区中的CpG位点往往不会被甲基化;这种现象表明启动子序列中的CpG位点的甲基化很可能导致基因表达被抑制。DNA甲基化和组蛋白修饰是基因铭印的核心过程。大多数组织间或正常样本和癌症样本间的甲基化差异发生在CpG岛附近(CpG island shores)而非CpG岛内部。

在脊椎动物中,CpG岛往往位于基因转录起始位点附近,尤其是持家基因。CpG位点有被甲基化的倾向,借助这种甲基化可以分辨新合成的DNA链和母链,这在DNA序列复制后的最终校对环节起重要作用。甲基化的胞嘧啶容易脱氨转变成胸腺嘧啶,导致T/G错误配对。胸腺嘧啶DNA糖苷酶(英语:Thymine-DNA glycosylase)(TDG)是人类用于修复TG错配的酶。但由于CpG位点的稀少性,TDG在理论上没有足够高的效率来消除这些快速发生的突变。通常认为CpG岛存在的原因是因受如下选择压力导致的:需要相对更高的CpG含量、更低的甲基化水平或是调控基因需要。最近也有研究称大多数的CpG岛是由非选择压力形成的。

对位于基因启动子内部CpG位点的甲基化可能导致该基因沉默(英语:Gene silencing),这种现象在部分人类肿瘤中表现为抑癌基因的沉默。与之对应的,CpG位点的去甲基化则和某些肿瘤的原癌基因过表达相关。

基于衰老和上万个CpG位点的甲基化重要联系,学者已能根据DNA的甲基化情况对人类和黑猩猩的细胞组织寿命进行精确的预测。

相关

  • IV型延迟性过敏反应(Delayed type hypersensitivity),又称第四型过敏反应(Type IV hypersensitivity),为一种细胞媒介反应。发病机制是人体对食物中抗原物质产生的免疫反应所致。延迟
  • 约瑟夫·德迈斯特约瑟夫·德·迈斯特伯爵(法语:Le comte Joseph de Maistre,1753年-1821年),是萨伏依的哲学家、作家、律师及外交官。在法国大革命之后的那段期间,他挺身为阶级社会与君主制辩护。迈
  • 亚胺结构亚胺是一种含碳-氮双键的官能团或有机化合物,通式为:R1R2C=NR3,其中氮原子连接一个氢原子(H)或一个有机基团(R3),碳原子则与另两个基团以单键连接。亚胺可视为醛或酮中氧原子被NR基团
  • 内涝内涝是指城市内部由于雨水无法及时通过排水系统排出造成的积水灾害,俗称水浸或淹水。内涝被视为城市规划中的一项世界级难题,许多城市为了治理内涝,斥巨资修建大型排水系统。
  • 马尿酸马尿酸(Hippuric acid),学名苯甲酰胺乙酸,分子式C9H9NO3,结构简式C6H5CONHCH2CO2H,该词起源于希腊语的Hippos(horse)和ouron(urine)。它是一种在马和草食性动物尿液中发现的有机酸。苯
  • 电动牙刷电动牙刷是牙刷的一种。它能够产生自动而快速的刷毛振动,以前后振荡或着以旋转的方式振荡(刷头往顺时针和逆时针的方向交替转动),进而达到洁牙的效果。牙刷由驱动电机提供动力,使
  • 白垩纪-第三纪白垩纪-古近纪灭绝事件(简称K-Pg事件、K-Pg灭绝),旧称为白垩纪﹣第三纪灭绝事件(简称K-T事件、K-T灭绝),俗称恐龙大灭绝,是地球历史上的第五次以及最后一次大规模物种灭绝事件、也是
  • 小斜方截半二十面体在几何学中,小斜方截半二十面体是一种半正多面体,由于其具有点可递的性质,因此属于阿基米德立体。它由20个正三角形面、30个正方形面、12个正五边形面、60个顶点和120条棱构成
  • 2012年夏季奥林匹克运动会羽毛球比赛参赛资格本条目列举2012年夏季奥林匹克运动会羽毛球比赛的参赛资格及运动员名单。参赛选手须为现行《奥林匹克宪章》认可参与奥林匹克运动会的运动员。本届比赛的运动员总人数限额为
  • 秦降王后秦降王后(?-前206年1月),为中国秦朝女性,姓与名均不详,她是秦降王子婴的王后。《史记·李斯列传》记载秦王子婴同妻子儿子一通向刘邦投降,项羽进入关中后,将子婴及其夫人以及两个儿