搜索
查看: 1644|回复: 3

TCGA中RNA-seq的3级数据的分析流程

[复制链接]

2

主题

8

帖子

239

积分

中级会员

Rank: 3Rank: 3

积分
239
发表于 2018-11-20 10:22:26 | 显示全部楼层 |阅读模式
大家好:我从http://gdac.broadinstitute.org/网站下载了TCGA的RNA-seq的转录本表达量数据,数据名称为:UCS.rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_isoforms_normalized__data.data.txt,
格式为。

问题来了:


自己也有RNA-seq数据,要分析转录本表达量,同时想利用TCGA的数据,
请问TCGA是如何分析测序原始fastq文件,得到上图中的normalized_count数据的?这个数据是TPM/FPKM/RPKM/RPM中的一种吗?


PS:
1、鉴于下载的文件名含有RSEM,我找了以前用RSEM生成的isoform表达量数据:
格式为,不知是否有用。
2、网上查了很多,TCGA的RNA-seq数据有两种(RNASeqV1RNASeqV2),用的是不同的算法和分析流程。
前者RNASeqV1数据可以从https://portal.gdc.cancer.gov/下载,是较新的,结果是raw-counts/FPKM/FPKM-US,分析流程见网页https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
但是RNA-seq数据是基因表达量或者miRNA表达量,并没有mRNA转录本表达量。

后者RNASeqV2数据,是从第一行的网址下载的,比较旧,但是含有转录本表达量数据,是我要用的。
找到了一篇文章Alternative preprocessing of RNA-Sequencing data in The Cancer Genome Atlas leads to improved analysis results 讲了一个分析流程可代替TCGA的标准流程,脚本在https://github.com/srp33/TCGA_RNASeq_Clinical,但是它是从另一个地方下载的TCGA RNA-seq 3级数据,我不确定是不是RNASeqV2格式。

提供任何信息都十分感谢!


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:小洁详解《R数据科学》--第十五章 向量(上)
下一篇:R数据科学(八)reader包数据导入
回复

使用道具 举报

12

主题

28

帖子

805

积分

高级会员

Rank: 4

积分
805
发表于 2018-11-21 04:17:02 | 显示全部楼层
请参考我的博文后面“几点解释”一节,不一定有用,抛砖引玉
http://bioinfostar.com/2017/12/0 ... Aseq-data-02-zh_CN/
Welcome to my blog: http://bioinfostar.com
回复 支持 反对

使用道具 举报

2

主题

8

帖子

239

积分

中级会员

Rank: 3Rank: 3

积分
239
 楼主| 发表于 2018-11-21 09:22:46 | 显示全部楼层
mckf111 发表于 2018-11-21 04:17
请参考我的博文后面“几点解释”一节,不一定有用,抛砖引玉
http://bioinfostar.com/2017/12/08/Battlefie ...

非常感谢!您写的TCGA大作战系列后来我也看了,确实有帮助。
回复 支持 反对

使用道具 举报

2

主题

8

帖子

239

积分

中级会员

Rank: 3Rank: 3

积分
239
 楼主| 发表于 2018-12-5 14:00:34 | 显示全部楼层
已经找到了对应的分析流程,如下:
https://webshare.bioinf.unc.edu/ ... mRNAseq_summary.pdf
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-4-26 14:32 , Processed in 0.031433 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.