搜索
查看: 2979|回复: 2

遗传资源变异数据库持续收集

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2016-9-1 17:40:53 | 显示全部楼层 |阅读模式
当我们对NGS数据call了snp之后一般会输出成vcf格式的数据,一行代表一个突变,例如
20      2451451 .       G       T       1939.77 .
AC=1;AF=0.500;AN=2;BaseQRankSum=-10.134;DP=239;Dels=0.00;FS=2.276;HaplotypeScore=0.0000;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0;MQRankSum=-0.258;QD=8.12;ReadPosRankSum=0.823;SOR=0.870
GT:ADP:GQL  0/1:150,89:239:99:1968,0,3874
#前几列记录着该突变发生在第几号染色体以及该染色体的哪个坐标,我们的参考基因组在该位点是什么碱基,我们测到的突变成了什么碱基。
最后两列是测序深度以及正负测序深度,或者ref和allele的测序深度。
只有第8列是最复杂的,可以有高达几百个数据信息,取决于我们用什么样的软件来call的snp,以及call了snp之后用什么样的软件做的注释。
接下来我们还需要探究我们找到的突变是否在其它以及公开发表的数据库里面被找到过,所以可以下载非常多的公共数据库进行比对,我所见过的有一下一些,估计完全下载有0.5T
dbsnp144 (这个是ncbi提供的最权威的啦)
cgi69
ExAC.vcf.gz(这个是broadinstitute提供的外显子联盟)
Cosmic_v73.ann.vcf.gz (这个是癌症突变信息集)
finalTCGA.vcf.gz (TCGA计划也是癌症相关的)
icgc.vcf.gz
dbNSFP2.6vcf
SCLP.ann.vcf.gz
CCLE.ann.vcf.gz
ESP6500-SIv2.vcf.gz (Variants from the Exome Sequencing Project (ESP))
adni-sum
safs-sum.indel.vcf.gz
gonl.vcf.gz
ssm.vcf.gz
ssi.vcf.gz
uk10k.vcf.gz
1000g-ph3v5.gff.gz  (千人基因组计划)
gwasCatalog.gff.gz  \
phewascatalog.gff.gz  \
dbgap-gwas.gff.gz  \
interproDomain.gff.gz \
clinvar.gff.gz \
RegulomeDB.gff.gz \
CancerGAMAdb.gff.gz \



上一篇:【板块例子】柯霍氏法则-转自百度百科
下一篇:生信人必会经典数据库NCBI-UCSC-ENSEMBL~~~
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

2

主题

41

帖子

385

积分

中级会员

Rank: 3Rank: 3

积分
385
发表于 2017-8-10 15:47:43 | 显示全部楼层
支持~
估计今年需要更新了吧?
回复 支持 反对

使用道具 举报

1

主题

16

帖子

152

积分

注册会员

Rank: 2

积分
152
发表于 2017-10-13 10:01:17 | 显示全部楼层
我以为有相应的链接地址呢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-19 23:50 , Processed in 0.036082 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.