搜索
查看: 3586|回复: 3

对snp进行注释并格式化输出-高级难度题目

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-1-15 21:09:45 | 显示全部楼层 |阅读模式
这个难度有点高,不建议初学者来做!
用annovar来把vcf格式的snp进行注释,注释之后大概是这样的,每个snp位点的坐标,已经在哪个基因上面,都标的很清楚啦,。而且该突变是在哪个基因的哪个转录本的哪个外显子都一清二楚,更强大的是,还能显示是第几个碱基突变成第几个,同样氨基酸的突变情况也很清楚。

但是这样不是很方便浏览具体突变情况,所以我写了一个脚本格式化该突变情况。
理论上是应该要做出上面这个样子,突变氨基酸前后各12个氨基酸都显示出来,突变的那个还要标红色突出显示!但是颜色控制很麻烦,我就没有做。效果如下

[Perl] 纯文本查看 复制代码
pen FH1,"NM2ensembl.txt";

while(<FH1>){

chomp;

@F=split;

$hash_nm_enst{$F[4]}=$F[1] if $F[4];

}

open FH2,"ENST.CDS.fa";

while($line=<FH2>){

chomp $line;

if ($line=~/>/) {$key = (split /\|/,$line)[1];}

else {$hash_nucl{$key}.=$line;}

}

open FH3,"ENST.protein";

while($line=<FH3>){

chomp $line;

if ($line=~/>/) {$key = (split /\|/,$line)[1];}

else {$hash_prot{$key}.=$line;}

}

open FH4,"raw.mutiple.txt";

$i=1;

while(<FH4>){

chomp;

@F=split;

@tmp=split/:/,$F[1];

/:exon(\d+):/;$exon=$1;

/(NM_\d+)/; $nm=$1;

$enst=$hash_nm_enst{$nm};

print "$i.  $tmp[0] $F[0] the $exon -th exon(s) of $enst \n";

$i++;

$tmp[3]=~/(\d+)/;$num_nucl=$1;

$tmp[3]=~/>([ATCG])/;$mutation_nucl=$1;

$tmp[4]=~/(\d+)/;$num_prot=$1;

$sequence=$hash_nucl{$enst};

$num_up=3*$num_prot-39;

$out_nucl=substr($sequence,$num_up,75);

print "WT:$out_nucl\n  ";

for(my $j=0; $j < (length($out_nucl) - 2) ; $j += 3)

{print ' ';print $codon{substr($out_nucl,$j,3)} ;print ' ';}   

print "\n";

$mutation_pos=$num_nucl-$num_up-1;

substr($out_nucl,$mutation_pos,1,$mutation_nucl) if ((length $out_nucl) == 75 );

print "MU:$out_nucl\n  ";

for(my $j=0; $j < (length($out_nucl) - 2) ; $j += 3)

{print ' ';print $codon{substr($out_nucl,$j,3)} ;print ' ';}   

print "\n";

print "\n";

print "\n";

}

PLEKHN1:NM_001160184:exon13:c.G1355C:p.R452P , chr1 909238    909238    G      C
生物知识:
生物数据库知识:
Refseq
Ensemble transcript ID (ENST.CDS.fa)
sequence



上一篇:生信编程直播第9题:根据指定染色体及坐标得到参考碱基
下一篇:把含有简并碱基的引物序列还原成多条序列-高级难度
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

13

主题

66

帖子

276

积分

中级会员

Rank: 3Rank: 3

积分
276
QQ
发表于 2017-1-15 22:31:08 | 显示全部楼层
这个很好,我要学习下,顺道回顾下annovar!!!赞!!!
苛求远离完美
回复 支持 反对

使用道具 举报

0

主题

5

帖子

247

积分

中级会员

Rank: 3Rank: 3

积分
247
发表于 2017-1-18 10:56:10 | 显示全部楼层

楼主,请教一下,用annovar中的hg19—clinvar_20151201文库注释后得到CLINSIG,CLNDBN,CLNACC CLNDSD,CLNDSDBID等结果,其中CLINSIG的范围怎么去看呀,官网上没有找到相关的指数~~麻烦给解答下,谢谢~~
回复 支持 反对

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-2-13 08:46:33 | 显示全部楼层
正需要snp分析,太好了!感谢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-14 22:11 , Processed in 0.032760 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.