搜索
查看: 9412|回复: 6

[mRNA-seq] 构建nr或者nt数据库的子库

[复制链接]

1

主题

11

帖子

132

积分

注册会员

Rank: 2

积分
132
发表于 2017-7-7 15:02:28 | 显示全部楼层 |阅读模式
由于nr和nt数据库的容量巨大,导致在做注释时经常耗费大量的时间,所以为啦节省时间,我们经常需要在原来的nr/nt数据库的基础上构建相对的子库(动物或者植物/细菌。。。。)
方法一:
在2017年之前的nr/nt数据库是支持gi号搜索的。所以我们可以根据gi号来分离并构建对应的子库。具体流程如下:(由于我自己是做植物的数据分析的,所以我的例子都是围绕植物子库的构建)
  • Download the prebuilt nr database (在ncbi上下载最新的nr/nt数据库),and use makeblastdb build prot database( makeblastdb -in nr -dbtype prot -parse_seqids -hash_index -out nr -logfile log.txt)
  • Search the Entrez Protein database with query: "txid33090[ORGN] "
(网址https://www.ncbi.nlm.nih.gov/protein/)

搜索植物的txid号33090[ORGN]  (当然前提是你要先知道植物所属的txid号


  • Select "Send to File" and choose format "GI list"

然后在send to 位置选择GI List 导出植物的gi list文件“sequence.gi
  • Use the list of GIs from the previous step with the blastdb_aliastool to build an aliased blastdb of just your organism (takes several seconds), eg:
blastdb_aliastool -gilist sequence.gi -db nr -out nr_plant -title nr_plant (其实到这一步就完成啦子库的构建)(结果只生成一个idex文件和一个二进制文件,如下)

  • Search against your new (aliased) database:
blastx -query query.fa -db nr_plant    (这是一个子库的使用例子)


方法二:
在2017年之后的nr/nt数据库变成不再支持gi号搜索的。所以我们不可以根据gi号来分离并构建对应的子库,那么我们就需要查看新版本的nr/nt库的序列的id特征,发现他们变成了accession id,那么我们就可以采取对应的方式来分离子库了。具体流程如下:(由于我自己是做植物的数据分析的,所以我的例子都是围绕植物子库的构建)
(由于我自己是做植物的数据分析的,所以我的例子都是围绕植物子库的构建)
  • Download the prebuilt nr database (在ncbi上下载最新的nr/nt数据库),and use makeblastdb build prot database( makeblastdb -in nr -dbtype prot -parse_seqids -hash_index -out nr -logfile log.txt)
  • Search the Entrez Protein database with query: "txid33090[ORGN] "
(网址https://www.ncbi.nlm.nih.gov/protein/)

搜索植物的txid号33090[ORGN]  (当然前提是你要先知道植物所属的txid号


  • Select "Send to File" and choose format "accession list"

然后在send to 位置选择accession list 导出植物的accession list文件“sequence.seq
  • Use the list of GIs from the previous step with the blastdb_aliastool to build an aliased blastdb of just your organism (takes several seconds), eg:
blastdb_aliastool -seqidlist sequence.seq -db nr -out nr_plant -title nr_plant(其实到这一步就完成啦子库的构建)(结果只生成一个idex文件"nr_plant.pal",如下)

  • Search against your new (aliased) database:
blastx -query query.fa -db nr_plant    (这是一个子库的使用例子)对应完整库的比较搜索,结果发现十条序列,搜索子库比完整库要快三分多种!!!!!


















上一篇:shortread 包,主要用来读取fastq文件(原始数据)
下一篇:生信编程实战代码注释【第三题-hg38每条染色体。。】
回复

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-7-7 15:28:33 | 显示全部楼层
我帮你把图片贴上去了,但是你不能取消那个有道云链接哦
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

1

主题

11

帖子

132

积分

注册会员

Rank: 2

积分
132
 楼主| 发表于 2017-7-7 16:11:45 | 显示全部楼层
谢谢jimmy
回复

使用道具 举报

0

主题

3

帖子

47

积分

新手上路

Rank: 1

积分
47
发表于 2017-10-9 10:09:40 | 显示全部楼层
额 按照txid33090 搜protein库,只有39个gi,这样对么?而且 类别是这样的 unnamed protein product [Viridiplantae]
回复 支持 反对

使用道具 举报

0

主题

3

帖子

47

积分

新手上路

Rank: 1

积分
47
发表于 2017-10-9 10:17:36 | 显示全部楼层
如果在protein库 搜索plant 有11201377个gi
回复 支持 反对

使用道具 举报

2

主题

17

帖子

325

积分

版主

Rank: 7Rank: 7Rank: 7

积分
325
发表于 2018-2-26 14:56:56 | 显示全部楼层
试过了txid33090 搜索就39个结果,而txid33090[ORGN]有10355005个结果。能问下后面的[ORGN]代表什么意思吗?是不是以后搜索其他物种类型的时候也要添加这个?
回复 支持 反对

使用道具 举报

1

主题

11

帖子

132

积分

注册会员

Rank: 2

积分
132
 楼主| 发表于 2018-3-3 20:29:21 | 显示全部楼层
ORGN代表的植物这个团体,只搜txid33090代表的搜的个体,以后搜某个物种时都应该加上ORGN。上面是附上的一张结果截图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-16 09:08 , Processed in 0.035598 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.