搜索
查看: 7262|回复: 1

[position-annotation] annovar对人类基因组variants注释

[复制链接]

8

主题

55

帖子

336

积分

版主

Rank: 7Rank: 7Rank: 7

积分
336
发表于 2016-9-8 14:00:21 | 显示全部楼层 |阅读模式
本帖最后由 dulunar 于 2016-9-8 20:58 编辑

  刚好最近遇到这个软件用于注释人类基因组的突变数据,记录一下~
  ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器的多种操作系统上执行。ANNOVAR能快速注释遗传变异并预测其功能。类似的variants注释软件还有 VEP, snpEff, VAAST, AnnTools等等.
  ANNOVAR支持三种不同形式的注释: gene-based, region-based 和filter-based. 这三种注释分别针对于每一个variant的不同方面:基于基因的注释(gene-based annotation)揭示variant与已知基因直接的关系以及对其产生的功能性影响;基于区域的注释(region-based annotation)揭示variant 与不同基因组特定段的关系,例如:它是否落在已知的保守基因组区域;基于过滤子的注释( filter-based annotation )则给出这个variant的一系列信息,如: population frequency in different populations 和various types of variant-deleteriousness prediction scores, 这些可被用来过滤掉一些公共的及 probably(大概,肯定的成分较大,是most likely) nondeleterious variants。
  (i)填写登记表,下载ANNOVAR软件(http://annovar.openbioinformatics.org/en/latest/), ‘annovar.latest.tar.gz’ file,解压文件 :
[Shell] 纯文本查看 复制代码
wget [url=http://www.openbioinformatics.org/annovar/download/0wgxR2rIVP/annovar.latest.tar.gz]http://www.openbioinformatics.or ... novar.latest.tar.gz[/url]
(ii)下载所有需要的注释信息库,对于基因注释的已经在下好的 ANNOVAR package中了。如果要进行其他注释,需要按以下命令下载数据库到 ‘humandb/’ 目录里:
[Shell] 纯文本查看 复制代码
​perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/

perl annotate_variation.pl -buildver hg19 -downdb cytoBand humandb/

perl annotate_variation.pl -buildver hg19 -downdb genomicSuperDups humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar snp138 humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar avsnp147     humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb26_all humandb/

perl annotate_variation.pl --downdb --webfrom annovar --buildver hg19 clinvar_20160302 humandb/

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 exac03 humandb/

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 kaviar_20150923 humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar cosmic70 humandb/

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar cg69 humandb/

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 dbnsfp30a humandb

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 icgc21 humandb

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 nci60 humandb

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 popfreq_max_20150413 humandb

perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 popfreq_all_20150413 humandb


我这里把很多需要的,且支持hg19的最新的数据库下载了下来,还有一些很大的数据库可以看需求下载,详细的数据库的版本地址

(iii)  用the ‘table_annovar.pl’ 来注释variants(可一次性完成三种类型的注释)。允许在同一命令中用输出的特定顺序来对多个注释类型进行自定义选择(custom selection)。
输入下列命令,用之前下载好的注释数据库来注释vcf格式文件中的variants:
[Shell] 纯文本查看 复制代码
perl table_annovar.pl <original.variant.vcf> humandb/ -out final -buildver hg19 -remove -protocol refGene,cytoBand,1000g2015aug_eur,1000g2015aug_eas,exac03,ljb26_all,clinvar_20160302,snp138 -operation g,r,f,f,f,f,f,f -vcfinput -nastring .[/size][/font][/color][/align][align=left][color=rgb(51, 51, 51)][font=Arial, &quot;][size=16px]
<original.variant.vcf> 参考(refers to )输入的vcf文件的名称
humandb/ 表示你前面下载的数据库的绝对路径(完整路径)、‘-buildver’ 后面接数据库的bulid,比如hg19/hg18/hg38
‘-remove’ 表示把注释过程中产生的中间文件在结束时删除掉、’-nastring‘ .  表示没有值的项用点来代替~
  ‘-protocol’ 选项后跟注释来源数据库的准确名称
‘-operation’ 选项后跟注释的类型: ‘g’ 表示基于基因的注释(gene-based annotation)、‘r’ 表示基于区域的注释(region-based annotation) 、‘f’ 表示基于筛选子的注释( filter-based annotation).
‘-out’ 选项是指定输出文件的前缀
-vcfinput’ 表明输入的是vcf文件,那么输出文件也是vcf文件,否则只会生成一个txt文件
关键步骤( CR ITICAL STEP):
1、确保注释数据库的名称正确并且是按你想要在输出文件中显示的顺序排列的;
2、确保 ‘-operation’指定的注释类型顺序和‘-protocol’指定的数据库顺序是一致的;
3、确保每个protocal名称或注释类型之间只有一个逗号,并且没有空白。
‘final.hg19_multianno.vcf’.输出文件应该是以个VCF格式文件,INFO那列以 ‘key=value’ 形式、 ‘;’分割成几个小区域. eg:‘Func.refGene=intronic;Gene.refGene=SAMD11’.  每个键值对代表一个ANNOVAR注释信息。输出文件可以用为VCF格式文件设计的基因分析软件进一步处理。
‘final.hg19_multianno.txt’. 每一行代表一个variant 。用tab分隔,多余列为加上的注释信息,顺序按  ‘--protocol’ 选项所设定的注释类型argument。

参考资料:

1、Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010
2、ANNOVAR Documentation
3、annovar对人类基因组和非人类基因组variants注释流程
4、ANNOVAR 注释软件
我的微博:dulunar
回复

使用道具 举报

8

主题

55

帖子

336

积分

版主

Rank: 7Rank: 7Rank: 7

积分
336
 楼主| 发表于 2016-9-8 20:49:22 | 显示全部楼层
本帖最后由 dulunar 于 2016-9-8 20:51 编辑

使用annotate_variation.pl进行注释:
Gene-based Annotation(基于基因的注释)
基于基因的注释(gene-based annotation)揭示variant与已知基因直接的关系以及对其产生的功能性影响,需要使用 for gene-based 的数据库。

[Shell] 纯文本查看 复制代码
perl annotate_variation.pl -geneanno -dbtype refGene -out ex1 -buildver hg19 ex1.avinput humandb/


geneanno  表示使用基于基因的注释
# -dbtype refGene  表示使用"refGene"数据库
# -out ex1  表示输出文件以ex1为前缀

Region-based Annotation(基于区域的注释)
基于过滤的注释精确匹配查询变异与数据库中的记录:如果它们有相同的染色体,起始位置,结束位置,REF的等位基因和ALT的等位基因,才能认为匹配。基于区域的注释看起来更像一个区域的查询(这个区域也可以是一个单一的位点),在一个数据库中,它不在乎位置的精确匹配,它不在乎核苷酸的识别。

基于区域的注释(region-based annotation)揭示variant与不同基因组特定段的关系,例如:它是否落在已知的保守基因组区域。基于区域的注释的数据库一般由UCSC提供。
[Shell] 纯文本查看 复制代码
perl annotate_variation.pl -regionanno -buildver hg19 -dbtype cytoBand ex1.avinput humandb/
perl annotate_variation.pl -regionanno -buildver hg19 -dbtype gff3 -gff3dbfile tfbs.gff3 ex1.avinput humandb/


Filter-based Annotation(基于过滤的注释)
filter-based和region-based主要的区别是,filter-based针对mutation(核苷酸的变化)而region-based针对染色体上的位置。例如region-based比对chr1:1000-1000而filter-based比对chr1:1000-1000上的A->G。

基于过滤的注释,使用不同的过滤数据库,可以给出这个variant的一系列信息。如在全基因组数据中的变异频率,可使用1000g2015aug、kaviar_20150923等数据库;在全外显组数据中的变异频率,可使用exac03、esp6500siv2等;在孤立的或者低代表人群中的变异频率,可使用ajews等数据库。(在ANNOVAR官方文档中也有 详细的介绍 )
[Shell] 纯文本查看 复制代码
perl annotate_variation.pl -filter -dbtype 1000g2015aug_all -maf 0.01 ex1.avinput humandb/
perl annotate_variation.pl -filter -buildver hg19 -dbtype snp138 ex1.avinput humandb/


参考资料:

1、Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010
2、ANNOVAR Documentation
3、annovar对人类基因组和非人类基因组variants注释流程
4、ANNOVAR 注释软件
我的微博:dulunar
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-23 18:03 , Processed in 0.043583 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.