搜索
查看: 5334|回复: 3

以前下载TCGA数据非常简单,都在一个远程电脑里面

[复制链接]

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-2-7 10:11:41 | 显示全部楼层 |阅读模式
只需明白那个电脑里面的层级结构即可,这就是我所擅长的,非常容易找到想要的数据的地址,然后直接wget或者浏览器下载!(远程电脑地址是:https://tcga-data.nci.nih.gov/tc ... rs/anonymous/tumor/)
但是那个远程电脑被关闭了,呜呼哀哉!

癌症按照不同种类编码好了,自己放到disease_code.txt文件里面即可
[AppleScript] 纯文本查看 复制代码
brca
kirc
ucec
coad
lusc
stad
lgg
hnsc
thca
luad
prad
ov
skcm
gbm
blca
lihc
cesc
kirp
read
pcpg
paad
esca
sarc
kich
dlbc
lcll
acc
ucs
meso
mm
laml
cntl


比如,如果我想下载临床数据,只需要根据癌症种类,构建https://tcga-data.nci.nih.gov/tc ... rs/anonymous/tumor/${i}/bcr/biotab/clin/nationwidechildrens.org_clinical_patient_${i}.txt 类似的url即可!

[Shell] 纯文本查看 复制代码
#!/bin/bash

CLASS=(`cat ./disease_code.txt | awk '!x[$0]++' | grep -v "disease"`)

for i in "${CLASS[@]}"
do
wget [url=https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/]https://tcga-data.nci.nih.gov/tc ... rs/anonymous/tumor/[/url]${i}/bcr/biotab/clin/nationwidechildrens.org_clinical_patient_${i}.txt


done


参考:https://www.biostars.org/p/110756/
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-7 10:18:59 | 显示全部楼层
像我这样的脚本大神,最讨厌用别人的网页工具了,一大堆的条条框框,选这里选哪里,头都大了,还不如把数据全部给我,我自己轻轻松松写一个脚本全部搞定,
https://gdc-portal.nci.nih.gov/legacy-archive/search/f
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

3

主题

43

帖子

212

积分

中级会员

Rank: 3Rank: 3

积分
212
发表于 2017-4-1 10:18:43 | 显示全部楼层
厉害了,我的楼主
回复 支持 反对

使用道具 举报

3

主题

43

帖子

212

积分

中级会员

Rank: 3Rank: 3

积分
212
发表于 2017-4-1 10:22:30 | 显示全部楼层
楼主,这个癌症的代码和名称对应关系去哪里看啊?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-21 04:58 , Processed in 0.036031 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.