搜索
查看: 4168|回复: 3

生信编程直播第7题:批量从NCBI下载数据(shell)

[复制链接]

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-2-14 21:15:13 | 显示全部楼层 |阅读模式
首先进入https://www.ncbi.nlm.nih.gov/genome/genomes/13563 可以找到Mycobacterium相关的180个记录,现在需要批量下载每一个记录的4个数据:
https://www.ncbi.nlm.nih.gov/gen ... _assembly_id=305879
Mycobacterium sp. AB308
Download sequences in FASTA format for genome, protein
Download genome annotation in GFF, GenBank format
BLAST against Mycobacterium genome, protein
All 180 genomes for species:
Browse the list

我观察了几个页面,进去简单看了一下那些下载链接,发现都是ftp,只是不知道ftp地址而已
我已经录制了视频,信息讲解,我是如何观察到的!
回到搜索界面,真心非常简单,里面有所以菌株的列表信息:
找到那个download table的控件点击即可!
这样就可以拿到里面的ftp列表!
再把自己的180个匹配从来,cut有ftp地址的那一列
拿到ftp地址如下:
[mw_shl_code=applescript,true]ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/015/405/GCA_000015405.1_ASM1540v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 620625.1_ASM62062v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 972925.1_ASM97292v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 21385.1_ASM102138v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 328565.1_ASM32856v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 001426545.1_Root135
ftp://ftp.ncbi.nlm.nih.gov/genom ... 001428895.1_Root265
ftp://ftp.ncbi.nlm.nih.gov/genom ... assilipolynesiensis
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99855.1_ASM149985v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99915.1_ASM149991v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 373905.1_ASM37390v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 0014165.1_ASM1416v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 0016005.1_ASM1600v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 262165.1_ASM26216v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 416365.2_ASM41636v2
ftp://ftp.ncbi.nlm.nih.gov/genom ... 80405.1_ASM158040v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 11855.1_ASM161185v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 44575.1_ASM164457v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 95755.1_ASM169575v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 86515.1_ASM188651v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 84215.1_ASM198421v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 364405.1_ASM36440v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 382405.1_ASM38240v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 383495.1_ASM38349v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 426065.1_ASM42606v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 686745.1_ASM68674v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... o_sp_TKK-01-0059_V2
ftp://ftp.ncbi.nlm.nih.gov/genom ... 746215.1_ASM74621v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 001428285.1_Soil538
ftp://ftp.ncbi.nlm.nih.gov/genom ... 157375.1_PRJEB19165
ftp://ftp.ncbi.nlm.nih.gov/genom ... 157385.1_PRJEB19184
ftp://ftp.ncbi.nlm.nih.gov/genom ... A_000416385.1_M6May
ftp://ftp.ncbi.nlm.nih.gov/genom ... /GCA_000419295.1_SP
ftp://ftp.ncbi.nlm.nih.gov/genom ... bacterium_sp_UM_WGJ
ftp://ftp.ncbi.nlm.nih.gov/genom ... bacterium_sp_UM_RHS
ftp://ftp.ncbi.nlm.nih.gov/genom ... bacterium_sp_UM_CSW
ftp://ftp.ncbi.nlm.nih.gov/genom ... 523635.1_ASM52363v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 523975.1_ASM52397v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 972905.1_ASM97290v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 972915.1_ASM97291v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 972935.1_ASM97293v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 14075.1_ASM141407v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 14095.1_ASM141409v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40005.1_ASM144000v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40085.1_ASM144008v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40105.1_ASM144010v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40125.1_ASM144012v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40135.1_ASM144013v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40155.1_ASM144015v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40185.1_ASM144018v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40205.1_ASM144020v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40225.1_ASM144022v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40245.1_ASM144024v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40265.1_ASM144026v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40275.1_ASM144027v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 40305.1_ASM144030v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99825.1_ASM149982v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99835.1_ASM149983v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99845.1_ASM149984v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99905.1_ASM149990v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99925.1_ASM149992v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99965.1_ASM149996v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99985.1_ASM149998v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 99995.1_ASM149999v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00025.1_ASM150002v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00045.1_ASM150004v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00065.1_ASM150006v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00085.1_ASM150008v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00105.1_ASM150010v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00125.1_ASM150012v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 00145.1_ASM150014v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 45925.1_ASM154592v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65235.1_ASM166523v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65255.1_ASM166525v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65295.1_ASM166529v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65365.1_ASM166536v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65395.1_ASM166539v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65535.1_ASM166553v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65575.1_ASM166557v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65605.1_ASM166560v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65615.1_ASM166561v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65645.1_ASM166564v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65685.1_ASM166568v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65755.1_ASM166575v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65825.1_ASM166582v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 65875.1_ASM166587v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66745.1_ASM166674v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66755.1_ASM166675v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66785.1_ASM166678v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66815.1_ASM166681v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66835.1_ASM166683v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66865.1_ASM166686v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66875.1_ASM166687v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66895.1_ASM166689v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66915.1_ASM166691v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66935.1_ASM166693v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66955.1_ASM166695v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67015.1_ASM166701v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67035.1_ASM166703v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67065.1_ASM166706v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67075.1_ASM166707v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67105.1_ASM166710v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67115.1_ASM166711v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67145.1_ASM166714v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67155.1_ASM166715v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67185.1_ASM166718v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67265.1_ASM166726v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67275.1_ASM166727v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67315.1_ASM166731v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67425.1_ASM166742v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67455.1_ASM166745v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67465.1_ASM166746v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67505.1_ASM166750v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67535.1_ASM166753v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67585.1_ASM166758v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67595.1_ASM166759v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67625.1_ASM166762v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67665.1_ASM166766v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67695.1_ASM166769v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67735.1_ASM166773v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67745.1_ASM166774v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67775.1_ASM166777v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67785.1_ASM166778v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67835.1_ASM166783v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67865.1_ASM166786v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67925.1_ASM166792v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 67995.1_ASM166799v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 68575.1_ASM166857v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 68615.1_ASM166861v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 68625.1_ASM166862v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 68695.1_ASM166869v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 68725.1_ASM166872v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 69335.1_ASM166933v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72665.1_ASM167266v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72675.1_ASM167267v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72685.1_ASM167268v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72745.1_ASM167274v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72815.1_ASM167281v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72895.1_ASM167289v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72915.1_ASM167291v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72935.1_ASM167293v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72975.1_ASM167297v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 72995.1_ASM167299v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73055.1_ASM167305v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73155.1_ASM167315v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73235.1_ASM167323v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73405.1_ASM167340v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73415.1_ASM167341v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73535.1_ASM167353v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73555.1_ASM167355v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 73615.1_ASM167361v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 66635.1_ASM176663v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 53525.1_ASM185352v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 05305.1_ASM190530v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 05565.1_ASM190556v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 05655.1_ASM190565v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 07615.1_ASM190761v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 42625.1_ASM194262v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 53975.1_ASM195397v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 54045.1_ASM195404v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 54135.1_ASM195413v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 54195.1_ASM195419v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 54215.1_ASM195421v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 54275.1_ASM195427v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 157365.1_PRJEB19151
ftp://ftp.ncbi.nlm.nih.gov/genom ... bacterium_sp_UM_WWY
ftp://ftp.ncbi.nlm.nih.gov/genom ... 744355.1_ASM74435v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 987455.1_ASM98745v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 56795.1_ASM175679v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 35505.1_ASM183550v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 35515.1_ASM183551v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 35525.1_ASM183552v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 35535.1_ASM183553v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... 54525.1_ASM185452v1
ftp://ftp.ncbi.nlm.nih.gov/genom ... um_komanii_GPK_1020
ftp://ftp.ncbi.nlm.nih.gov/genom ... _annotated_assembly
ftp://ftp.ncbi.nlm.nih.gov/genom ... _annotated_assembly
ftp://ftp.ncbi.nlm.nih.gov/genom ... _annotated_assembly
ftp://ftp.ncbi.nlm.nih.gov/genom ... _annotated_assembly
ftp://ftp.ncbi.nlm.nih.gov/genom ... _annotated_assembly
[/mw_shl_code]

然后写一个shell脚本即可:
1.png
[mw_shl_code=shell,true]cat ftp.list |while read id; do wget -c -r -np -k -L -p  -nd -A.fna.gz $id;done
cat ftp.list |while read id; do wget -c -r -np -k -L -p  -nd -A.gff.gz $id;done
cat ftp.list |while read id; do wget -c -r -np -k -L -p  -nd -A.gbff.gz $id;done
cat ftp.list |while read id; do wget -c -r -np -k -L -p  -nd -A.faa.gz $id;done[/mw_shl_code]

三分钟就搞定啦!
2.png







上一篇:跟polya初学ggplot2包
下一篇:癌症变异位点的临床解释数据库大全!
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-14 21:20:13 | 显示全部楼层
当然,你肯是有linux服务器咯
如果没有,需要在windows电脑里面安装git软件,再安装wget命令。
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-14 21:22:53 | 显示全部楼层
其实rentrez package ,https://cran.r-project.org/web/p ... ntrez_tutorial.html 学一下,就几个函数,调整参数就可以完成
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

2

主题

4

帖子

129

积分

注册会员

Rank: 2

积分
129
发表于 2017-9-27 21:59:23 | 显示全部楼层
每次下基因组 直接wget ftp.../* 几个文件都下载下来,
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-1-20 21:35 , Processed in 0.034099 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.