搜索
查看: 6468|回复: 2

Pfam数据库蛋白编码能力预测

[复制链接]

3

主题

43

帖子

212

积分

中级会员

Rank: 3Rank: 3

积分
212
发表于 2017-3-20 16:45:57 | 显示全部楼层 |阅读模式
本帖最后由 galen.cheng 于 2017-3-21 11:05 编辑

最近一段时间在研究LncRNA的编码能力预测这一块,主要用到了CPC,CNCI和PfamScan三个软件来预测序列编码能力,其中PfamScan的安装和使用颇为周折,下面参考了一些资料整理了一下:
一、分析背景
蛋白一般由一个或多个功能域所组成,在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性。鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能。Pfam是一个大型蛋白结构域家族的数据库,每个蛋白家族都由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。
Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据建立的,质量较高。Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域是非常有用的。
二、软件安装
1. HMMER3http://hmmer.janelia.org/software,使用以下命令安装:
tar zxf hmmer-3.1b1.tar.gz
cd hmmer-3.1b1
./configure
make
make check
make install
2. Perl语言的Moose包:(这一步我花了好多时间,因为有很多依赖包,还有一系列权限问题)下面是非root账户的安装方法(root账户如果环境变量配置没有问题的话直接cpanm Moose)
先登录个人账户运行下面命令:
[Shell] 纯文本查看 复制代码
wget -O- [url]http://cpanmin.us[/url] | perl - -l ~/perl5 App::cpanminus local::libeval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`echo 'eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`' >> ~/.profileecho 'export MANPATH=$HOME/perl5/man:$MANPATH' >> ~/.profile

就能拥有一个私人的cpan下载器,~/.profile可能需要更改为.bash_profile, .bashrc,etc等等,取决于你的linux系统!

然后你直接运行cpanm Moose可能还需要安装IPC::RUN模块,同样cpanm IPC::Run即可
3. 分析工具PfamScan,下载:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools,使用以下命令安装:
[Shell] 纯文本查看 复制代码
tar zxvf PfamScan.tar.gz
export PATH=/path/to/install/hmmer3/bin:$PATH
export PERL5LIB=/path/to/pfam_scanDir:$PERL5LIB
需下载的数据库包括:Pfam-A.hmm, Pfam-A.hmm.dat,Pfam-B.hmm,Pfam-B.hmm.dat,active_site.dat。
通过hmmerspress来把下载的数据建库:
hmmpress Pfam-A.hmm
hmmpress Pfam-B.hmm
三、使用说明
[Shell] 纯文本查看 复制代码
./pfam_scan.pl -fasta -dir
例如在在用户cg的/home/cg/works/linbo/PfamScan目录中:
./pfam_scan.pl -fasta cpc.fa –dir /home/cg/works/linbo/PfamScan-pfamB -as -outfile result.fa
参数说明:
-dir Pfam_data_file_dir 包含Pfam数据文件的目录[必须]
-fasta fasta_file 包含序列的输入文件名 [必须]
-outfile output_file 输出文件名 [不指定则输出在命令行中]
-e_seq 序列E-value阈值 [不指定则使用默认阈值]
-e_dom 结构域E-value阈值 [不指定则使用默认阈值]
-b_seq 序列bit score阈值 [不指定则使用默认阈值]
-b_dom 结构域bit score阈值[不指定则使用默认阈值]
-pfamB 搜索Pfam-B数据库HMMs[默认关闭]
-only_pfamB 只搜索Pfam-B数据库HMMs[默认关闭]
-clan_overlap 允许不同上级分类的序列重叠 [默认关闭]
-align 在结果中显示比对片段 [默认关闭]
-as 预测Pfam-A数据库匹配的activesites[默认关闭]
-json [pretty] 输出结果使用JSON格式。例如指定值为[pretty],则输出结果会使用"pretty" JSON格式输出 [默认关闭]
-cpu 并行工作的CPU数目 [默认全部]
-translate [mode] 将输入序列视为DNA,并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定,则必须为"all"或者"orf"。"all"表示完整翻译,包括终止子并且不产生单独的ORFs;"orf"表示只翻译和报告长度大于20的ORFs。如果使用了翻译参数而没有指定翻译模式,则默认使用"orf"模式。[默认关闭]
-h 显示帮助信息
四、结果格式
标准的输出格式见附件
pfamscan蛋白结构域分析结果说明如下:
(1) seq_id:转录本ID+[0,1,2],不存在于列表中的转录本为noncoding
(2) hmm start:比对到结构域的起始位置
(3) hmm end:比对到结构域的终止位置
(4) hmm acc:比对到pfam结构域的ID
(5) hmm name:pfam结构域名称
(6) hmm length:pfam结构域的长度
(7) bit score:比对打分分值
(8) E-value:比对的E值,pfam结构域筛选的条件是: Evalue < 0.001
五、引用文献
R.D. Finn, A. Bateman, J. Clements, P.Coggill, R.Y.Eberhardt, S.R. Eddy, A. Heger, K. Hetherington, L. Holm, J.Mistry, E.L.L.Sonnhammer, J. Tate, M. Punta. The Pfam protein familiesdatabase. Nucleic AcidsResearch(2014) Database Issue 42 : D222-D230



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:利用GCTA工具计算复杂性状/特征(Complex Trait)的遗传相关性
下一篇:circos画图中snp dinsity数据准备
回复

使用道具 举报

3

主题

43

帖子

212

积分

中级会员

Rank: 3Rank: 3

积分
212
 楼主| 发表于 2017-3-20 16:48:45 | 显示全部楼层
群主,那个快捷表情怎么改啊。。
回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-3-20 17:46:01 | 显示全部楼层
galen.cheng 发表于 2017-3-20 16:48
群主,那个快捷表情怎么改啊。。

插入代码即可,不要直接用文字,论坛搜索,代码高亮
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-23 07:20 , Processed in 0.035158 second(s), 32 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.