搜索
查看: 1188|回复: 0

1KG数据库的妙用:利用连锁和重组补全缺失基因型

[复制链接]

2

主题

3

帖子

39

积分

新手上路

Rank: 1

积分
39
发表于 2018-8-26 12:47:37 | 显示全部楼层 |阅读模式
                                                   
生物医疗领域最丰富的就是公共数据,最近利用1KG第3期的数据做了缺失基因型补全的项目,深感开源数据的强大,简直就是一座金矿,这里跟大家分享一下。
前几天受朋友王玲同学邀请,谈谈开源数据的挖掘与利用问题,这几天一直太忙,今天终于有点时间可以写点东西了。
绝代双骄EBI/NCBI收录了天文级的数据资源,如著名的肿瘤数据TCGA,甲基化数据GEO,基因-表型数据dbGap,群体遗传学数据1KG。当然,这些连冰川一角都不够。不过,即使这些冰山一角的数据,也没有多少人挖掘很深吧?
很多人可能经常到NCBI逛逛,其实EBI也有非常多的开源数据,如EVA免费开源了包括人类在内的35个物种很多研究项目的VCF数据,OmicsDI提供了多个物种的Transcriptomics, Genomics, Proteomics and Metabolomics的大量数据集等等。绝代双骄是做研究的蓬莱仙岛,每天逛一逛,收获绝对让您意想不到。
言归正传,我们回到1KG项目。先提出2个问题,您知道1KG项目很多3X、5X、10X的数据存在的大量缺失位点信息是怎么处理的吗?23andme芯片检测60万位点,报告里却给出千万个位点信息吗?
是不是很神奇?是不是想到巨大的商业应用场景?
没错,神奇的原因就是利用了基因连锁和重组原理来补全缺失位点的基因型,参考的数据库可以是1KG, Hapmap, HRC。我们这里以最常用的1KG为例做下demo:
1、数据准备:首先下载1KG数据的重组率数据库 1000GP_Phase3.tgz 和单倍型数据库M3VCFhttps://genome.sph.umich.edu/wiki/Minimac4),这2个数据库都是按照染色体拆分的;把自己检测的VCF数据合并,并只提取基因型,结果如下:
M3VCF文件

M3VCF单倍型内容

M3VCF单倍型内容
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/%E5%8D%95%E5%80%8D%E5%9E%8B%E6%95%B0%E6%8D%AE%E5%BA%93%E5%86%85%E5%AE%B9.png?lastModify=1535258524
文件解读:第1行第3列<BLOCK:0-24>表示第一个单倍型块,含有25个变异位点,REPS=123表示这25个变异在1KG的2504个人中共有123种单倍型。
重组率数据库

重组率数据库内容

重组率数据库内容
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/%E9%87%8D%E7%BB%84%E7%8E%87%E6%95%B0%E6%8D%AE%E5%BA%93%E5%86%85%E5%AE%B9.png?lastModify=1535258524
文件解读:以基因重组率为1%时两个基因间的距离记作1厘摩(centimorgan,cM)
自己检测数据VCF

自己检测数据

自己检测数据
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/%E6%A3%80%E6%B5%8B%E6%95%B0%E6%8D%AEVCF%E5%90%88%E5%B9%B6.png?lastModify=1535258524
文件解读:您只需把FORMAT的GT提取出来,每个样本的基因型(默认“/”即可)提取出来即可。ID默认就好。
2、软件准备
基因型补全历经十几年的发展,已经诞生了众多优秀的软件

impute软件

impute软件
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/impute%E8%BD%AF%E4%BB%B6.png?lastModify=1535258524
这里我们采用Minimac4,是密歇根大学开发的一款非常优秀的基因型补全软件。
不过,在做补全之前,我们先要对检测数据进行phasing,即从目标位点/区域非缺失的位点中,总结这个区域的基因型规律,并分类。其实就是分析各个区域的单倍型组成。
这样的phasing软件主流的有3款,我们这里以shapeIT为例:

phasing软件

phasing软件
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/phasing%E8%BD%AF%E4%BB%B6.png?lastModify=1535258524
在进行demo前,先简单图解下原理:

impute原理图解

impute原理图解
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/impute%E5%8E%9F%E7%90%86%E5%9B%BE%E8%A7%A3.png?lastModify=1535258524
3、基因型补全demo

基因型补全实例

基因型补全实例
file://L:/biotecan/%E4%B8%AA%E4%BA%BA%E5%85%AC%E4%BC%97%E5%8F%B7/1KG%E6%95%B0%E6%8D%AE%E5%A6%99%E7%94%A8/%E5%9F%BA%E5%9B%A0%E5%9E%8B%E8%A1%A5%E5%85%A8%E5%AE%9E%E4%BE%8B.png?lastModify=1535258524
总结:1KG的成果很多,除了熟知的频率数据,还有单倍型、重组率数据等等,其他数据的成果就更多了。那么补全基因型有哪些应用场景呢:
遗传变异分析:
缺失基因型补全特别适合生殖变异,主要应用包括大健康的遗传筛查(低深度测序大大降低成本)、遗传图谱构建,QTL定位,选择压力分析,GWAS分析等
体细胞变异机器学习、深度学习建模的数据补全:
Joint genotype inference with germline and somatic mutations. BMC Bioinformatics. 2013
A new GWAS and meta-analysis with 1000Genomes imputation identifies novel risk variants for colorectal cancer. Scientific Reports. 2015
祖源分析:通过补全缺失基因型,减少缺失数据的影响,将经典耗时的无监督模型转为快速高效的监督模型。
  




上一篇:使用clusterProfiler包对非模式生物进行GO和KEGG的富集分析
下一篇:绘制Ks密度分布图
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-20 00:50 , Processed in 0.034805 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.