搜索
查看: 2159|回复: 0

GWAS的困境和遗传模型的新思

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-9-3 08:33:37 | 显示全部楼层 |阅读模式
GWAS的困境和遗传模型的新思
2017-09-02 鱼儿鱼儿游 EvolChat
1. 表型和基因型的游戏
GWAS(Genome-wide Association Study,全基因组关联分析)是一个逻辑清晰的游戏:我们以身高为例,已知身高的遗传率很高(估计为为0.8),也就是说,A身高1.5,B身高1.8,这30厘米的差异中,有至少24厘米是遗传差异造成的。遗传的基础又是DNA,所以我们应该能够在A和B的基因组上,找到DNA的差异,而这种DNA序列的差异最终贡献了这24厘米的差异,GWAS就是想去找到这种DNA序列的差异。
于是我们找来1000个人,量了每个人的身高(表型),测了每个人的基因组,找出所有的基因组上差异的位点(基因型),对于每个差异的位点都去和表型做一个相关性的分析,给出p-value用来衡量表型和每个位点的相关性。如果和某一个位点非常相关,啊哈,那我们就找到了能够影响身高的DNA差异!
2. 不够“翘”的QQ图
每一位跑GWAS的分析人员,心里都暗暗期待着一个“傲人”的曲线的出现:希望QQ图在该“翘”的地方能够“翘”起来,特别是在尾巴上(图1)。“翘”意味着偏离了y=x的直线,翘上去意味着有位点的p-value值比预期的小很多,而这很可能是由真实的表型-基因型关联导致的。

图 1. 一个很“翘”的QQ图。
但是,现实总是很骨感,图2才是GWAS分析的常态:Manhattan图上看到零零散散的峰图,一蹶不振的QQ图。哎,又是一次失败的GWAS分析!
图 2. 一个常见的GWAS结果
3. 哪里出问题了?
我研究的性状本事是个遗传率很高的性状呀!基因组上应该会有一些变异能够解释这一表型的变异的,为什么一个都找不到呢?
其实QQ图不够翘,只是GWAS困境的冰山一角,这是比较惨的一种情况,即使是比较成功的情形下,也隐藏着一些问题。
在很多成功的GWAS事例里,即使拿到了显著性关联的位点,结果却显示每个位点能够解释的表型差异微乎其微。目前身高的研究已经动用了万级别的人群数量,但是拿到的遗传位点加到一起,其能够解释的表型变异不足5%,距离0.8的遗传率还差了75%呢!于是这75%的缺口就成了GWAS中“缺失遗传率”(missing heritability的问题)。那么,是什么导致了遗传率的缺失呢?
4. “开个天窗”的解释
75%的缺口,弄得遗传学家人心惶惶,于是各种解释也纷纷出炉。首先大家都基于一个共同的框架,认为像身高这种性状是一种复杂性状,是由多个基因控制的。其中一个解释是说,实际上我们做GWAS的SNP里面有很多是能够贡献身高表型差异的,但是贡献率很低,结果他们的p-value也不是很高,也被埋在背景里面了,拿不出来。但是说到多基因,多少个基因才叫多呢?1999年的时候,一个针对自闭症的研究解释,控制这一性状的位点,可能多达15个以上。当时科学家们纷纷觉得,这个有点太多了(内心OS:这么多的话,还研究个qiu,复杂到根本搞不清楚啊。。。)。但实际上,现在的研究显示:15个是一个很低的估计!
再以身高为例,2008年的时候,身高的所有关联位点能解释表型差异的5%左右;后来,人们加大了样本量(25万+),找到的位点能够解释更多遗传变异了(16%),但是这包括了697个基因组位点!但是与0.8还差着64%呢!那如果最终解释清楚,又该有多少个遗传位点?
5. 拆了房子吧
最近的一篇Cell的综述论文[1],可谓大块人心,反正我是跪着读完的,Johnathan K. Pritchard出品,必属精品!这篇论文本身也是一篇网红论文,在Twitter上面被转载和讨论了900多次,发表2个半月,引用11次。(顺便吐槽一下对Twitter的封锁,上了Twitter才发现,好多大牛科学家在Twitter上好活跃呀!!!对于一手的科研信息和交流,我们中国的研究生们又痛失一重要渠道。)
这篇文章说,我们不要再去整什么“多基因模型”了吧,要解释一个表型的变异,应该考虑“全基因模型”(Omnigenic model)!
因为考虑“多基因模型”,我们仍然想着,某一个性状由多个位点(基因)去解释,我们总是还想着去一个个把某一个位点(基因)挖出来,然后把他们连成分子网络,建立出一个靠谱的模型,然后我们就可以“当上帝”啦:拿着一个基因组,我能准确预测出表型。
但是“全基因模型”告诉你,去你的这份幻想!因为基因组上几乎所有的位点都和你研究的性状有关!这意味着你所设想的那个分子网络,如果存在的话,也是复杂到难以全面厘清。
作者还很贴心地为“全基因模型”构建出内在的框架(图3):与表型相关的所有的基因,应该分为“核心基因”(core genes)和“外围基因”(peripheral genes)。核心的基因可能是对表型影响比较大的一些基因,但是每个核心基因,都与其他很多基因有着千丝万缕的联系,而那些外围的基因相当于为核心基因提供了分子层面的“基因环境”,也有可能是我们常说的遗传背景。如果考虑身高,比如一个骨生成诱导因子基因是一个核心基因,而一个嗅觉受体基因可能是外围的基因。这两个基因之间,可能通过复杂的分子网络联系在一起,就像一张巨大的蜘蛛网,嗅觉受体基因上的扰动,可能通过复杂的方式影响了核心基因:比如表达量,比如表观水平的影响,最终能够体现出表型的差异。这简直就是分子层面的“蝴蝶效应”。

图 3. “全基因模型”示意图
6. 表型的思考
无论如何,我还是很喜欢Pritchard他们的“全基因模型”,至少又减少了每回看到不够“翘”的QQ图的痛苦,能够安然接受着。
但是,我看到的很多“丢失的遗传率”的思考都是围绕着基因型在做文章,但是GWAS毕竟是一个表型-基因型的游戏,表型上是不是也有思考的缺环?我们测量的形状是不是一个well-defined的性状?我们测量的性状本身,是不是具有我们期待的那种遗传结构?真正well-defined的性状,和进化上找真正受选择的那个性状之间有什么关系?表型的本身是不是应该进一步细化,甚至深入到器官层面?组织层面?细胞层面?亚细胞层面?分子层面?如果能提取到不同层面的表型,去回答同一生物学的问题,会不会使得整个图像更为完整,也会找回更多的“缺失遗传率”?
参考文献
[1] Boyle, E. A., Li, Y. I. & Pritchard, J. K. An Expanded View of Complex Traits: From Polygenic to Omnigenic. Cell 169, 1177-1186, doi:10.1016/j.cell.2017.05.038 (2017).




上一篇:Biostar:课程23、24
下一篇:靶向癌症中的表观遗传变化
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-20 19:27 , Processed in 0.027320 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.