搜索
查看: 10595|回复: 6

现在下载TCGA数据也是非常方便,首先是GDC网站及客户端

[复制链接]

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-2-7 10:58:04 | 显示全部楼层 |阅读模式
存放公共数据一旦迁移是一件很麻烦的事情,会导致大批量url变成死链接,这样一系列依据此,写的教程就都挂掉了!
我喜爱的文件浏览器格式(http://www.biotrainee.com/thread-820-1-1.html),就是这样死掉了,现在迫不得已使用GDC这个网站!

从某种意义来说,GDC网站用户友好度更佳,适合傻瓜式操作,像我这样的大神就很郁闷了!

像我这样的大神,可以从几百个文件夹里面迅速寻找规律,定位到自己想要的知识,这个技能现在彻底废掉了。

因为GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。
https://gdc-portal.nci.nih.gov/legacy-archive/search/f

以前如果我想下载BRCA的所有临床信息,我只需要去https://tcga-data.nci.nih.gov/tc ... rs/anonymous/tumor/这个网站里面找到brca文件夹,然后去 /bcr/biotab/clin/文件夹里面找到nationwidechildrens.org_clinical_patient_brca.txt文件即可,一般人可能会很烦,好像没有规律,但是我很懂呀,一秒钟就搞定了。而且我都是自己写程序自动化下载的

现在好了,换成新版的用户界面了,必须自己去GDC网站里面点击5次鼠标,然后下载 manifest 文件,然后用GDC提供的一个软件来下载!

如下图所示:

GDC-usage.png

如果要下载其它癌症,其它类型数据,把想要的框框选择好即可。
但是我讨厌用它的工具!我喜欢自己写脚本!

更重要的是,它GDC下载,这一千多个样本,速度慢的要死,傻瓜式的一个个样本一次次下载,每个样本都下载一个xml文件。
而且下载的样本是一个个文件夹,最后我还是得写脚本来把这些数据格式化。

为嘛不当初直接给我一个矩阵呢?

你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-7 14:44:16 | 显示全部楼层
Jimmy 发表于 2017-2-7 11:07
而且中间有些样本会报错:
[mw_shl_code=applescript,true]#2017-02-07 11:05:50,938: ERROR: Unabl        ...

GDC自己也知道自己工具没有做好,在网站上面清楚的说明了,如果有些样本下载失败,把同样的命令再跑一遍,就可以恢复下载那些失败的!
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 1 反对 0

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-7 11:06:27 | 显示全部楼层
GDC客户端的说明书是:https://docs.gdc.cancer.gov/Data ... de/Getting_Started/
傻瓜式软件,非常简单!
https://docs.gdc.cancer.gov/Data ... ownload_and_Upload/
一般人只需要对你下载好的mainfest进行GDC下载数据即可
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-7 11:07:43 | 显示全部楼层
而且中间有些样本会报错:
[AppleScript] 纯文本查看 复制代码
#2017-02-07 11:05:50,938: ERROR: Unabl                           e to download de9b5dee-ec27-4ab4-9eae-e3687aadd136: Unable to connect to API: (H                           TTPSConnectionPool(host='gdc-api.nci.nih.gov', port=443): Read timed out. (read                            timeout=60)). Is this url correct: 'https://gdc-api.nci.nih.gov/data/'? Is there                            a connection to the API? Is the server running?

截止到我写完这个教程,一千多个临床信息还没下载完毕。
巨坑!
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-7 11:09:13 | 显示全部楼层
前面版主写过一个教程,推荐大家看看,http://www.biotrainee.com/thread-306-1-1.html
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-7 11:11:05 | 显示全部楼层
至于下载下来的文件,是每个样本一个文件夹,该如何合并,我下次再讲,大家先看看这个 https://wiki.nci.nih.gov/display ... taOverview-XMLFiles
了解为什么有XML来存储信息
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

1

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2017-4-22 23:32:42 | 显示全部楼层
请问,下载之后如何合并呢?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-15 16:53 , Processed in 0.041499 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.