搜索
查看: 952|回复: 1

[function-annotation] mRNA blastx against nr database 速度太慢怎么办[已解决]

[复制链接]

1

主题

2

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2022-3-1 13:53:13 | 显示全部楼层 |阅读模式
本帖最后由 maxineliu 于 2022-3-4 03:34 编辑

我正在分析一个非模式生物的mRNA数据(没有参考基因组), 所以没有该生物的基因注释库, 因此我计划比对比较general的蛋白质库. 除了blast了swiss protein库之外, 我还打算对比ncbi的nr库. 可是问题是速度实在太慢了.

问题描述如下:
单个样本de novo assembly的转录组大小: 140M左右
单个样本的转录本个数: 130k左右
使用的blastx命令如下:
blastx -query sample_assembly.fasta \
    -db database_path/nr \
    -num_threads 40 \
    -max_target_seqs 1 \
    -outfmt 6 \
    -evalue 1e-3 > sample_name.outfmt6

耗时三天, sample_name.outfmt6文件里只有900多条比对结果, 离完成还差得远.

想请教做过nr比对的大佬们, 这个速度是不是不正常啊, 有什么办法可以提速吗, 谢谢!
回复

使用道具 举报

1

主题

2

帖子

25

积分

新手上路

Rank: 1

积分
25
 楼主| 发表于 2022-3-4 05:25:38 | 显示全部楼层
更新一下进展:
在google上搜了一圈发现blast这个工具就是这么慢, 并不是我的命令出错之类的. 但是市面上出现了一些blast-like alignment tool. 我选择使用的是DIAMOND, 实测用blastx要分析一个月以上的流程, DIAMOND只用几个小时就完成了, 而且开发者声称它的结果可以和blast的结果媲美.

DIAMOND的发表文章:

Buchfink B, Reuter K, Drost HG, "Sensitive protein alignments at tree-of-life scale using DIAMOND", Nature Methods 18, 366–368 (2021). doi:10.1038/s41592-021-01101-x

Buchfink B, Xie C, Huson DH, "Fast and sensitive protein alignment using DIAMOND", Nature Methods 12, 59-60 (2015). doi:10.1038/nmeth.3176
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2023-1-31 19:06 , Processed in 0.107855 second(s), 35 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.