搜索
查看: 3916|回复: 0

【直播】我的基因组(六):变异位点注释数据库的准备

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-1-26 17:52:37 | 显示全部楼层 |阅读模式
本帖最后由 zckoo007 于 2017-1-26 17:54 编辑

【直播】我的基因组(六):变异位点注释数据库的准备
      大家好,又是一周不见。
      这次见面,已然是一个悲伤而又狂欢的日子,这个双十一,小编从一只单身汪已经变成了断手单身汪,累觉不爱。但是,扶朕起来,朕还能学。
      Jimmy的测序数据终于出来了,虽然还没寄到Jimmy的手里。不过我们离正式分析不远了,你们觉得呢?在正式分析之前,我们还有几个准备工作,小编把Jimmy上次介绍的软件进行了下载和准备,不知道大家一起了么?这一次我们准备一下变异数据库,这对于我们在找有意义的变异位点、疾病预测等方面有着重要作用呢!我们一起来看看Jimmy告诉我们该怎样做吧!

通常一个人的全基因组测序数据可以挖掘到四百万个SNVs(跟参考基因组不一样的单碱基位点),还有五十万的indels(insertionsor deletions),但是得到的数据通常是以vcf文件格式给出的(自行搜索什么是vcf格式),比如下面:
6add853.jpg

很明显,正常人是看不懂这些变异位点有啥子一样的,只知道第20条染色体的1230237坐标上面本来是一个T碱基的,但是突变成了G,那么我们必然还想知道,这个位点是在某个基因上面吗?如果是,在基因的外显子还是内含子?它的突变有没有改变该基因的功能呢?有没有影响它的转录和翻译呢?还有世界上有没有其他正常人也是这个位点变异呢?如果有,是哪些人种呢?有没有癌症病人也发现了这个变异呢?如果有,是什么癌症呢?所以我们必须下载一系列的变异位点注释数据库,来全方位的解释我们自己找到那四百万个SNVs和五十万的indels。下面我们一起进行数据库准备。

TCGA数据库是最大的癌症基因信息的数据库。TCGA中的somatic mutation大全非常重要,里面搜集的是TCGA计划里面各个癌症里面总结的somatic mutation,如果我们手头的样本的变异文件里面跟它有交集,那这就有些危险了。用下面的代码下载!

[Perl] 纯文本查看 复制代码
wget [url=https://gdc-docs.nci.nih.gov/Data/Release_Notes/Manifests/GDC_open_MAFs_manifest.txt]https://gdc-docs.nci.nih.gov/Dat ... n_MAFs_manifest.txt[/url]
for i in `cut -f 2  GDC_open_MAFs_manifest.txt`
do
echo $i
adress=`echo $i |cut -d'.' -f 4 `
filename=`echo $i |cut -f 2 |cut -d'.' -f 1-3,5-7 `
echo $adress $filename
wget -O "$filename" "https://gdc-api.nci.nih.gov/data/$adress"
done


其中,还有一些数据库是需要注册的,就没办法给出下载地址了,比如COSMIC,这个同样是关于癌症的数据库,我们也不希望正常人里面出现这些突变!附图给大家看看注册的界面。

403b781.jpg


如果是正常人数据库,那么我们就需要把找到的正常人的变异位点在它里面出现的过滤掉,不研究了,因为正常人有这个变异也正常(当然也并不不绝对),比如说千人基因组计划。

千人基因组计划里面涉及到了5个大人种,共25个小人种的基因型数据,把自己的基因型文件跟他们相比,可以得到某种程度的比较粗糙的祖缘分析结果,而且我们还下载了好几个国家级的基因组计划,都是针对特定人种的。

下载千人基因组数据库。
[AppleScript] 纯文本查看 复制代码
mkdir -p ~/annotation/variation/human/1000genomes
cd ~/annotation/variation/human/1000genomes
## [url=ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/]ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/[/url]
nohup wget  -c -r -nd -np -k -L -p [url=ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502]ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502[/url] &
还有一些其常常用数据库,我就不一一介绍了(#后是对应数据库的说明,大家可自行查看)
[AppleScript] 纯文本查看 复制代码
mkdir -p ~/annotation/variation/human/ExAC
cd ~/annotation/variation/human/ExAC
## [url=http://exac.broadinstitute.org/]http://exac.broadinstitute.org/[/url]
## [url=ftp://ftp.broadinstitute.org/pub/ExAC_release/current]ftp://ftp.broadinstitute.org/pub/ExAC_release/current[/url]
wget [url=ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz.tbi]ftp://ftp.broadinstitute.org/pub ... ites.vep.vcf.gz.tbi[/url]
nohup wget [url=ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz]ftp://ftp.broadinstitute.org/pub ... .1.sites.vep.vcf.gz[/url] &
wget [url=ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final-cnv.gene.scores071316]ftp://ftp.broadinstitute.org/pub ... v.gene.scores071316[/url]
wget [url=ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final.autosome-1pct-sq60-qc-prot-coding.cnv.bed]ftp://ftp.broadinstitute.org/pub ... prot-coding.cnv.bed[/url]
mkdir -p ~/annotation/variation/human/dbSNP
cd ~/annotation/variation/human/dbSNP
## [url=https://www.ncbi.nlm.nih.gov/projects/SNP/]https://www.ncbi.nlm.nih.gov/projects/SNP/[/url]
## [url=ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/]ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/[/url]
## [url=ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/]ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/[/url]
nohup wget [url=ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz]ftp://ftp.ncbi.nih.gov/snp/organ ... All_20160601.vcf.gz[/url] &
wget [url=ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz.tbi]ftp://ftp.ncbi.nih.gov/snp/organ ... 20160601.vcf.gz.tbi[/url]
mkdir -p ~/annotation/variation/human/ESP6500
cd ~/annotation/variation/human/ESP6500
# [url=http://evs.gs.washington.edu/EVS/]http://evs.gs.washington.edu/EVS/[/url]
nohup wget [url=http://evs.gs.washington.edu/evs_bulk_data/ESP6500SI-V2-SSA137.GRCh38-liftover.snps_indels.vcf.tar.gz]http://evs.gs.washington.edu/evs ... s_indels.vcf.tar.gz[/url] &
mkdir -p ~/annotation/variation/human/UK10K
cd ~/annotation/variation/human/UK10K
# [url=http://www.uk10k.org/]http://www.uk10k.org/[/url]
nohup wget [url=ftp://ngs.sanger.ac.uk/production/uk10k/UK10K_COHORT/REL-2012-06-02/UK10K_COHORT.20160215.sites.vcf.gz]ftp://ngs.sanger.ac.uk/productio ... 160215.sites.vcf.gz[/url] &
mkdir -p ~/annotation/variation/human/gonl
cd ~/annotation/variation/human/gonl
## [url=http://www.nlgenome.nl/search/]http://www.nlgenome.nl/search/[/url]
## [url=https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5/]https://molgenis26.target.rug.nl ... /variants/release5/[/url]
nohup wget  -c -r -nd -np -k -L -p [url=https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5]https://molgenis26.target.rug.nl ... c/variants/release5[/url]  &
## 1 million single nucleotide polymorphisms (SNPs) for DNA samples from each of the three ethnic groups in Singapore – Chinese, Malays and Indians.
## The Affymetrix Genome-Wide Human SNP Array 6.0   && The Illumina Human1M single BeadChip
## [url=http://www.statgen.nus.edu.sg/~SGVP/]http://www.statgen.nus.edu.sg/~SGVP/[/url]
## [url=http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/samples-information.txt]http://www.statgen.nus.edu.sg/~S ... les-information.txt[/url]
# [url=http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/genotypes/2009-01-30/QC/]http://www.statgen.nus.edu.sg/~S ... ypes/2009-01-30/QC/[/url]
## Singapore Sequencing Malay Project (SSMP)
mkdir -p ~/annotation/variation/human/SSMP
cd ~/annotation/variation/human/SSMP
## [url=http://www.statgen.nus.edu.sg/~SSMP/]http://www.statgen.nus.edu.sg/~SSMP/[/url]
## [url=http://www.statgen.nus.edu.sg/~SSMP/download/vcf/2012_05]http://www.statgen.nus.edu.sg/~SSMP/download/vcf/2012_05[/url]
## Singapore Sequencing Indian Project (SSIP)
mkdir -p ~/annotation/variation/human/SSIP
cd ~/annotation/variation/human/SSIP
# [url=http://www.statgen.nus.edu.sg/~SSIP/]http://www.statgen.nus.edu.sg/~SSIP/[/url]
## [url=http://www.statgen.nus.edu.sg/~SSIP/download/vcf/dataFreeze_Feb2013]http://www.statgen.nus.edu.sg/~S ... /dataFreeze_Feb2013[/url]







上一篇:PCA和MDS降维的区别
下一篇:全基因组分窗口统计GC含量
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-6-1 12:53 , Processed in 0.034176 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.