搜索
查看: 3181|回复: 2

使用REST API批量下载ENCODE数据

[复制链接]

2

主题

3

帖子

47

积分

新手上路

Rank: 1

积分
47
发表于 2017-11-26 11:35:32 | 显示全部楼层 |阅读模式
本帖最后由 bryce 于 2017-11-26 11:43 编辑

本篇主要内容
本篇主要介绍两种方法,搜索并批量下载ENCODE数据。

方法一:在页面中搜索并获取下载地址
  • 进入ENCODE portal主页:https://www.encodeproject.org/。
  • 点击matrix,在搜索框搜索。比如“ctcf chip-seq k562” 。同时可以点击页面左方导航栏进行过滤。
  • 点击切换到列表模式。

    4. 点击页面中的Download,下载一个名为files.txt的文件。这个文件的第一行是页面中所有文件的metadata。从第二行开始就是下载链接了。使用wget或者curl可以直接下载。

方法二:写代码搜索后批量下载
可以发现方法一中的files.txt的URL有相同的模式(BASE_URL + QUERY)。
BASE_URL= ‘https://www.encodeproject.org
QUERY = ‘/files/[accession number]/@@download/[accession number].[format]’
那么对于一个Experiment,我们如何获取所有原始文件和结果文件(fastq,bam,bed等)的下载地址(QUERY)呢?
举例来说,我们点击方法一中搜索得到第一个实验(Experiment),accession number为ENCSR000BNK,
可以通过在URL后面加上?format=json查看这个实验的所有metadata(JSON格式),页面地址为
https://www.encodeproject.org/experiments/ENCSR000BNK/?format=json
我们需要的下载链接(QUERY),就是其中的一个名为href的metadata。
写代码搜索下载的实质就是通过RESTful API同ENCODE的metadata数据库交互,取得我们需要的metadata(以JSON的格式),然后获取文件下载地址“href”。
直接上代码,使用上述的ENCSR000BNK为例:
fig18.png
这样文件就下载到本地了。

参考信息:
ENCODE REST API:https://www.encodeproject.org/help/rest-api/
ENCODE DCC github:https://github.com/ENCODE-DCC

注:
这是一个包含四篇文章的小专栏,内容分别为:
  • 介绍ENCODE计划的数据体系(data model)
  • 批量下载ENCODE portal的数据(附示例代码)
  • 学习ENCODE的官方数据处理流程(pipeline)(附代码仓库列表)
  • ENCODE项目数据分析培训课程的资源(附下载链接)

获取更多更新资源,请关注微信公众号“生物信息学小站”








上一篇:sam文件中的flags的疑问
下一篇:转录组
回复

使用道具 举报

2

主题

3

帖子

47

积分

新手上路

Rank: 1

积分
47
 楼主| 发表于 2017-11-26 11:44:42 | 显示全部楼层
论坛的编辑器有点不给力。。帖子发表后很多markdown的格式都丢失了
回复 支持 反对

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-11-27 09:09:12 | 显示全部楼层
bryce 发表于 2017-11-26 11:44
论坛的编辑器有点不给力。。帖子发表后很多markdown的格式都丢失了

md的话,我推荐你一个新的生信技能树论坛,  https://vip.biotrainee.com/  还有,你这个ENCODE下载方式可以去我博客搜索一下,加入我的下载豪华套餐咯
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-11 23:11 , Processed in 0.025505 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.