搜索
查看: 4816|回复: 3

clinvar数据库详解

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-3-1 16:24:29 | 显示全部楼层 |阅读模式
我抛砖引玉,希望你们来补充:

首先是数据库的下载:
[Shell] 纯文本查看 复制代码
## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar 
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names 
mkdir vcf_GRCh37 && cd vcf_GRCh37
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170130.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/common_and_clinical_20170130.vcf.gz 
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/common_no_known_medical_impact_20170130.vcf.gzwget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170228.vcf.gz 
wget  ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20170228.vcf.gz.tbi 



下载完之后,可以自己去看看!

一般是用软件来把这个数据库注释到VCF文件里面,其中annovar是比较出名的,注释方式如下:

[Shell] 纯文本查看 复制代码
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -downdb -webfrom annovar -build hg19 -downdb clinvar_20170130 ~/biosoft/ANNOVAR/annovar/humandb/

~/biosoft/ANNOVAR/annovar/annotate_variation.pl --filter  -buildver hg19 -out clinvar_20170130_anno         -dbtype clinvar_20170130 jmzeng.annovar_input ~/biosoft/ANNOVAR/annovar/humandb/


当然,jmzeng.annovar_input 这个文件,你需要自己对VCF进行制作,方法我就不多说了,博客讲过好几次了。

数据库的下载和使用,都是傻瓜式的,只有肯学,没什么问题。

但是,数据库的结果如何解读,这个才是重点!

首先NCBI有说明书;https://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
其次,我推荐一个比较好的ppt:https://www.clinicalgenome.org/site/assets/files/1594/landrum_clinvar.pdf

解读,希望你们能在下面跟帖~







上一篇:你的基因测序结果给了你什么好玩的结论?
下一篇:芯片基础知识打卡
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-3-1 16:33:45 | 显示全部楼层
ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。当前数据库可支持XML、VCF以及制表符定界文件格式的文件。ClinVar同时支持在线和下载到本地两种形式。


当我们已经拥有大量的变异数据信息(如高通量测序或芯片),并且想对这些数据进行疾病研究,那么,我们可以考虑采用下载数据库到本地的方式。该数据库可通过FTP地址(ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/)下载,大约每月更新一次。需要注意的是,不同的基因型表现出的疾病关系很可能不同,所以在下载的vcf文件中,vcf文件条目和实际的ClinVar记录条目是一对多的关系。

获得数据库后,可以通过ANNOVAR等软件进行整合分析。把测序数据中的SNP等变异数据在ClinVar数据库中搜索并进行变异分析,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。输出表格形式大致如网页版(如下文所示)。


如果已有目标基因或疾病信息,想开展有针对性的分析,可选择在线搜索形式。

登录网址 (https://www.ncbi.nlm.nih.gov/clinvar/http://www.clinvar.com/)可以看到以下界面:



还是老规矩,在搜索框中输入关注的信息。可以是疾病基因的gene symbol,也可以是疾病状态(如cancer)等。下面以镰状细胞贫血病相关基因RPS19为例,把关键词RPS19输入在搜索框中,点击搜索。



从结果中,我们可以获知这个基因多种信息,其中有:

  • 总体信息:在左侧栏目找到这个关键词的总体统计信息,同时这些信息也可以作为筛选条件而使用。
  • 变异和位置信息:可以发现基因的变异位置、变异类型(C>T还是其他)、所在染色体信息等。
  • 与其相关的疾病。
  • 变异频率:这个minor变异类型在不同数据库中的出现频率,如GO-ESP:0.00054(T)表示在ESP数据中含有“T”的等位基因频率为0.00054。
  • 临床意义:可以简单理解为这个突变对临床疾病的重要性。分为pathogenic(致病),likely benign(可能有害)等多个等级。
  • 审核状态:因为这些临床意义是提交者自己定义并且提交的,因此有可能会对数据有一定误导作用,通过对数据的审核,有助于加强数据的可靠性。但不是每个数据都会有审核。



回复 支持 反对

使用道具 举报

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-3-1 16:51:36 | 显示全部楼层
导语:ClinVar 是一个公开的数据库,其中收集了与疾病相关的遗传变异。这一数据库由美国国立卫生研究院2013年为了生物技术信息开发而构建,到目前为止,已经从研究人员和其它数据库中获得了包含超过125000份独特突变的临床注释。
关键词:遗传突变;千人基因组计划;CLINVAR
正文:
去年秋天,千人基因组计划(1000 Genomes Project)揭示了人类基因组中8800万个突变,但科学家们并不清楚其中大部分突变对于人体健康的意义。而且遗传变异与疾病之间的已知关联,其实很多也并不明确。科学家们如何能准确确定哪些基因或遗传变异是真正有害的呢?
CLINVAR
www.ncbi.nlm.nih.gov/clinvar
ClinVar 是一个公开的数据库,其中收集了与疾病相关的遗传变异。这一数据库由美国国立卫生研究院2013年为了生物技术信息开发而构建,来自美国联盟医疗体系(Partners Healthcare)的临床遗传学家Heidi Rehm表示,到目前为止,已经从研究人员和其它数据库中获得了包含超过125,000份独特突变的临床注释。
ClinVar 将基因突变对健康影响的多方面性质都考虑在内了,比如对于一个突变,这个研究组说它是良性,但另外一个研究组又认为它其实性质更加严重。而且 ClinVar 也有自己的分类,“可能致病性(likely pathogenic)”就是一种更清楚的定义和标准化。
工作机理:
ClinVar 采用的是星标系统(star-based system),可以评估某个特定突变在疾病中的本来或者注释作用。四星级是最高级,也就是说这个突变的功能已经经过了多位专家的测评。这样详细审查过程的好处在于用户能信任三、四星突变的功能注释,Rhem说,但是在ClinVar 数据库中只有少量此类数据(3800个)。
更多时候是只有一星的突变,这通常只基于单个提出注释功能的研究成果,还有没有星的,也就是提交者没有提供解释标准和支持证据。ClinVar 工具的一个问题在于其数据库中大多数临床上重要的突变(83%)都是某个家庭中独一无二的,或者非常罕见的。
2015年NEJM发表文章
如何入手:
充分了解ClinVar,可以参阅近期的一份详细用户手册(Curr Protoc Hum Genet, doi:10.1002/0471142905.hg0816s89, 2016),此外还有YouTube上的一个视频video 也解释了不同的搜索项。由于这一工具依赖于提交数据,因此Rehm也鼓励实验室共享数据,提交数据向导可以在 ClinVar 网站上找到。
注意事项:
虽然 ClinVar希望能满足你的所有需求,但实际上并没有那么完美,这主要是因为数据库依赖于自愿提交的材料。“我们尝试说服所有的杂志将ClinVar 作为出版资料的一部分,”Rehm说,目前他们正在朝着这个方向来努力。
同时,他们也在通过多个来源分析患者遗传数据中候选突变的临床意义,包括人类基因突变数据库 (Human Genetic Mutation Database,HGMD)——收集已发表文献中的突变,虽然HGMD管理不佳,“但至少它能找出你的突变也许会出现在哪里,”Rehm也在努力挖掘疾病特异性数据库,寻找特殊突变。
回复 支持 反对

使用道具 举报

0

主题

2

帖子

89

积分

注册会员

Rank: 2

积分
89
发表于 2018-8-2 10:54:35 | 显示全部楼层
ydchen 发表于 2017-3-1 16:51
导语:ClinVar 是一个公开的数据库,其中收集了与疾病相关的遗传变异。这一数据库由美国国立卫生研究院2013 ...

是的,heidi做了很多工作,包括近期和犹他大学 eilbeck教授合作的CLINVAR MINER
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-2-21 22:51 , Processed in 0.037080 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.