搜索
查看: 7089|回复: 11

迄今最方便的TCGA数据下载、整理及分析工具

[复制链接]

20

主题

68

帖子

870

积分

版主

Rank: 7Rank: 7Rank: 7

积分
870
QQ
发表于 2017-12-12 11:19:42 | 显示全部楼层 |阅读模式
本帖最后由 bioinfo.dong 于 2018-2-7 04:03 编辑

TCGA数据下载和整理的网站及软件发表很多了,比如Broad GDAC Firehose, Oncomine, TCGAbiolinks,TCGA-Assembler, TCGA2STAT,RTCGAToolbox等等,这些网站或软件要么使用的是TCGA更新前的数据,要么运行起来比较繁琐。当然各个工具都有其优势所在。

之前在论坛里分享了自己下载和整理TCGA数据的Python代码。最近忙里偷闲重新写了个R包,GDCRNATools,主要功能是寻找lncRNAs相关的ceRNAs。为方便用户使用,其中也加入了TCGA数据下载、整理和常规分析工具。整个流程都非常容易上手,只要有一点R编程基础就可以。目前R包还在Bioconductor under review。在这里先提前分享一下,方便大家更好的对TCGA数据进行挖掘。个人认为这是目前使用起来最方便的TCGA工具。

先上GDCRNATools流程图:




1. GDCRNATools下载与安装
因为该R包还未在Bioconductor公布,因此暂时只能先将其下载到本地进行安装。
下载地址:GDCRNATools_0.99.16.tar.gz
安装说明:GDCRNATools安装说明
在Linux和Mac系统的安装比较容易,只要把压缩包下载,运行一条命令就可以。
[AppleScript] 纯文本查看 复制代码
install.packages('GDCRNATools_0.99.0.tar.gz', repos = NULL, type='source')

Windows系统下需要先安装Rtools,把R和Rtools加入环境变量,然后在command prompt里输入
[AppleScript] 纯文本查看 复制代码
R CMD INSTALL GDCRNATools_0.99.0.tar.gz

具体请参照GDCRNATools安装说明

2. GDCRNATools使用说明
详细的使用说明为一个html文件,可以将该文件下载到本地然后用任意浏览器打开即可。
使用说明:GDCRNATools使用说明


3. GDCRNATools数据下载
GDCRNATools提供了两种数据下载方式:(1) 用户可以到GDC网站将所需数据加入购物车,下载manifest文件以及metadata文件(后续分析需要),然后在gdcRNADownload里提供该manifest文件即可; (2)用户也可以直接在gdcRNADownload里指定需要下载的project id及data type,数据便可自动下载。第2种方式只能下载RNA HTseq-Counts数据以及Isoform Expression Quantification数据。临床数据需要使用gdcClinicalDownload下载。

4.GDCRNATools数据整理
前面提到的metadata里有所下载数据的基本信息以及一些临床信息。GDCRNATools中的gdcParseMetadata可以将其中的信息整理成表格,同上,用户可以提供metadata文件,也可以直接指定project id及data type。提取出的metadata在后续分析会经常用到。
gdcRNAMerge可以将RNA counts数据整理成表格,也可以提取成熟miRNAs的数据并整理成表格。gdcClinicalMerge专门用于临床数据的整理。

5. GDCRNATools数据分析
(1)差异基因分析:用户可以在gdcDEAnalysis中自选limma,edgeR,或DESeq2进行差异基因分析
(2)生存分析:gdcSurvivalAnalysis可以进行基因批量生存分析,包括CoxPH及KM分析
(3)功能富集分析:gdcEnrichAnalysis可以同时进行GO, KEGG, DO分析,功能富集分析基于Y叔的两个R包ClusterProfiler和DOSE,这两个包使用的都是最新的数据
(4)内源竞争性RNA分析:gdcCEAnalysis是GDCRNATools的主打功能,通过lncRNA与mRNA共有的miRNA,lncRNA与mRNA表达相关性,以及共有miRNAs对lncRNA以及mRNA的调控相似性来寻找lncRNA相关的ceRNA。gdcCEAnalysis中整合了spongeScanstarBase V2.0mirTarBase,以及miRcode四个数据库中miRNA与lncRNA、mRNA的互作关系。所有基因的ID都更新到了Ensembl 90, miRNA的ID更新到了最新的miRBase release 21。

(5)其他功能:除上述分析外,用户可能感兴趣lncRNA,pseudogene等的其他分析,GDCRNATools可以帮用户提取这些基因

6. GDCRNATools的视图功能
常规的火山图,柱状图,散点图,富集分析气泡图,生存曲线等等都可以在GDCRNATools中实现。用户也可以使用GDCRNATools中三个简单的shiny工具在网页上选取感兴趣的基因,通路来观察他们的生存曲线,表达相关性,及富集的KEGG通路map。

详细流程及运行代码请参考:GDCRNATools使用说明

最后欢迎使用GDCRNATools,希望多多交流指正~


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
You really shouldn't spend your time reinventing the wheel
回复

使用道具 举报

1

主题

42

帖子

455

积分

中级会员

Rank: 3Rank: 3

积分
455
发表于 2017-12-13 20:52:45 | 显示全部楼层
楼主辛苦了 这个确实不错
人生若只如初见!
回复 支持 反对

使用道具 举报

0

主题

3

帖子

161

积分

注册会员

Rank: 2

积分
161
发表于 2018-2-14 21:06:05 | 显示全部楼层
楼主您好,用了您的最新的GDCRNATools包解析结直肠癌metadata数据出现如下错误提示,其他肿瘤分析又是正常。
看了下metadata的gender数据也确实跟其他肿瘤的数据都是一样的。能麻烦您帮看一下吗?

> ### Parse RNAseq metadata
> metaMatrix.RNA <- gdcParseMetadata(project.id = 'TCGA-COAD',
+                                    data.type  = 'RNAseq',
+                                    write.meta = FALSE)
Error in vapply(seq_len(nSam), function(i) null2naFun(metadata[[i]]$cases[[1]]$demographic$gender),  :
  值的种类必需是'character',
但FUN(X[[207]])结果的种类却是'logical'
> ### Parse miRNAs metadata
> metaMatrix.MIR <- gdcParseMetadata(project.id = 'TCGA-COAD',
+                                    data.type  = 'miRNAs',
+                                    write.meta = FALSE)
Error in vapply(seq_len(nSam), function(i) null2naFun(metadata[[i]]$cases[[1]]$demographic$gender),  :
  值的种类必需是'character',
但FUN(X[[89]])结果的种类却是'logical'

回复 支持 反对

使用道具 举报

20

主题

68

帖子

870

积分

版主

Rank: 7Rank: 7Rank: 7

积分
870
QQ
 楼主| 发表于 2018-2-24 05:46:35 | 显示全部楼层
c14175 发表于 2018-2-14 21:06
楼主您好,用了您的最新的GDCRNATools包解析结直肠癌metadata数据出现如下错误提示,其他肿瘤分析又是正常 ...

The bug has been fixed. You can install the new version. Thanks
You really shouldn't spend your time reinventing the wheel
回复 支持 反对

使用道具 举报

0

主题

3

帖子

161

积分

注册会员

Rank: 2

积分
161
发表于 2018-2-25 22:00:01 | 显示全部楼层
bioinfo.dong 发表于 2018-2-24 05:46
The bug has been fixed. You can install the new version. Thanks

Thank u very much!
回复 支持 反对

使用道具 举报

2

主题

17

帖子

303

积分

版主

Rank: 7Rank: 7Rank: 7

积分
303
发表于 2018-6-21 15:21:05 | 显示全部楼层
gdcRNADownload(project.id     = 'TCGA-CHOL',
+                data.type      = 'RNAseq',
+                write.manifest = FALSE,
+                directory      = rnadir)
Error in FUN(X[[i]], ...) :
  unused arguments (destination_dir = directory, overwrite = FALSE)
参考示例运行的  在这一步一直报错
回复 支持 反对

使用道具 举报

2

主题

17

帖子

303

积分

版主

Rank: 7Rank: 7Rank: 7

积分
303
发表于 2018-6-26 09:46:16 | 显示全部楼层
秋叶麒麟 发表于 2018-6-21 15:21
gdcRNADownload(project.id     = 'TCGA-CHOL',
+                data.type      = 'RNAseq',
+         ...

问题已解决。
gdcRNADownload函数中增加了method = "gdc-client"

原函数默认的是method = “GenomicDataCommons”
具体为什么默认参数不能用这个不太明白  虽然GenomicDataCommons包我也加载了   
后来改成gdc-client就正常了
回复 支持 反对

使用道具 举报

0

主题

2

帖子

49

积分

新手上路

Rank: 1

积分
49
发表于 2018-7-4 15:43:15 | 显示全部楼层
c14175 发表于 2018-2-14 21:06
楼主您好,用了您的最新的GDCRNATools包解析结直肠癌metadata数据出现如下错误提示,其他肿瘤分析又是正常 ...

这个错误解决了吗?我用最新版本发现仍然存在这个问题
回复 支持 反对

使用道具 举报

1

主题

4

帖子

46

积分

新手上路

Rank: 1

积分
46
发表于 2018-7-9 23:14:34 | 显示全部楼层
厉害了我的哥   你们这些作者简直就是人类进步的推动器!!!
回复 支持 反对

使用道具 举报

1

主题

4

帖子

58

积分

注册会员

Rank: 2

积分
58
发表于 2018-8-26 15:47:46 | 显示全部楼层
大神,按照示例没办法下载呢?最开始有六楼那样的问题,后来照七楼修改了,又出现
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb9 in position 7: ordinal not in range(128)
Failed to execute script gdc-client
There were 50 or more warnings (use warnings() to see the first 50)

怎么回事呢?还有用手动的方法下载需要文件的那一部分?函数如何设置呢?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-11-17 05:07 , Processed in 0.049232 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.