搜索
查看: 5981|回复: 5

肿瘤信息学系列一:RNA-seq分析基本流程 (未完待续。。....

[复制链接]

20

主题

68

帖子

816

积分

版主

Rank: 7Rank: 7Rank: 7

积分
816
QQ
发表于 2016-10-29 17:13:35 | 显示全部楼层 |阅读模式
本帖最后由 bioinfo.dong 于 2016-10-30 10:31 编辑

终于能喘口气回来建设版块了。因本人才疏学浅,实在不知道怎样更好的规划内容,只能先从自己最熟悉的入手了。


RNA-seq数据分析基本流程
Step 1. Demultiplex,Trimming, and Quality Control  [Script,TrimmomaticFastQC]
因为我没有用过国内公司的测序服务,所以不知道他们提供的数据是什么样子的。我都是自己建库,知道3‘-adaptor序列以及每个样本的5’-barcode,因此仅需要从公司获取原始数据,自己进行所有的分析。
通常demultiplex和trimming我都会用自己的Python脚本处理,这里的trimming只是去掉3‘-adaptor序列,根据以往的经验,一般测序质量都还是不错的,我不太care是否要去掉几个低质量的碱基或者reads,因此quality control只是简单看一下。当然不同公司建库或者测序能力不太一样,如果一定要做reads filtering和quality control,可以自己写脚本,也可以用Trimmomatic以及FastQC进行数据预处理。

Step 2. Alignment, Assemble transcriptome, Merge multiple transcriptomes, Estimate transcripts abundance [TopHat, Cufflinks, HTSeq, RSEM, ...]
<1>  经过上一步分析得到clean reads后, 我们就可以直接使用Toxedo suite command line tools (TopHat, Cufflinks) 进行比对,转录组组装,转录本表达量计数,以及差异表达基因分析。关于这部分就不赘述了,网站上有详细的manual,如果有问题可以进一步讨论。这里贴一下cufflinks分析的流程图。



### TopHat2: Alignment
[Shell] 纯文本查看 复制代码
tophat2 -p 8 -o tophat2_out/ -r 50 -i 70 --library-type fr-unstranded nipponbare7 MH63.read1_Clean.fq MH63.read2_Clean.fq

### Cufflinks: Transcriptome assembly
[Shell] 纯文本查看 复制代码
cufflinks -p 8 -o transcriptome/MH63 -g all.gff3 ~/work/tophat2_out/MH63/MH63.accepted_hits.bam

### Cuffmerge: Merge multiple transcriptomes
[Shell] 纯文本查看 复制代码
cuffmerge -o cuffmerge.out/ -p 8 -g all.gff3 -s nipponbare7.fa cuffmerge_assembly_list.txt

### Cuffquant: Estimate transcripts abundance
[Shell] 纯文本查看 复制代码
cuffquant -o cuffquant.out/MH63 -p 8 -b nipponbare7.fa -u cuffmerge.out/merged.gtf tophat2_out/MH63/MH63.accepted_hits.bam

### Cuffdiff: Differential expression analysis
[Shell] 纯文本查看 复制代码
cuffdiff -o cuffdiff.out/ -L ZS97,MH63 -p 8 -b nipponbare7.fa -u -FDR 0.05 cuffmerge.out/merged.gtf cuffquant.out/ZS97/abundances.cxb cuffquant.out/MH63/abundances.cxb

### [Optional] Cuffnorm: An extra level of normalization. Outputs can be used in other tools
[Shell] 纯文本查看 复制代码
cuffnorm -o cuffnorm_out/ -L ZS97,MH63 -p 8 cuffmerge_out/merged.gtf cuffquant_out/ZS97/abundances.cxb cuffquant_out/MH63/abundances.cxb


<2> 有些时候我们不需要进行转录组的组装工作,或者不喜欢用cufflinks做差异表达分析,那么我们就可以用HTSeq或者RSEM对比对后的数据进行counts计数。在这里我们要知道,Cufflinks是用FPKM的方法进行normalization然后进行差异表达分析,而很多R的软件包,比如limma,edgeR等的输入数据为原始的counts数据,这就是为什么当你用limma或者edgeR等做差异表达分析的时候需要从TCGA上下载counts数据,而不是normalize过的FPKM数据。

Step3. Differential Gene Expression Analysis [limma, edgeR, DESeq, ...]
序列比对完成后,下一步我们就可以通过差异基因表达分析找到在不同条件下(比如癌症租与对照组)表达有差异的基因。实现这一功能的软件有很多,除了上一步提到的Cuffdiff外,还有很多常用的R软件包,比如limma,edgeR,DESeq等等。这里有篇文章对常用的这些方法进行了总结和比较,有兴趣可以认真读一下(Comparison of software packages fordetecting differential expression inRNA-seq studies)。另外,虽然limma等软件的输入数据为原始的counts数据,但是在软件内部真正用于差异比较的还是经过normalization的数据。normalization的方法也有很多:FPKM (Fragments per kilobase per million mapped reads), TMM(Trimmed mean of M-values)等等,也有文章做了详细的比较(A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis),在此就不赘述了。

重点讲一下如何用limma进行差异表达分析
XXXXXX


Step4. Gene Ontology Analysis, KEGG Pathway Analysis [DAVID 6.8]


常见问题汇总






You really shouldn't spend your time reinventing the wheel
回复

使用道具 举报

1

主题

41

帖子

280

积分

中级会员

Rank: 3Rank: 3

积分
280
发表于 2016-11-1 23:00:05 来自手机 | 显示全部楼层
干活满满
回复

使用道具 举报

1

主题

9

帖子

77

积分

注册会员

Rank: 2

积分
77
发表于 2016-11-2 09:07:15 | 显示全部楼层
良篇,你好棒
回复 支持 反对

使用道具 举报

0

主题

22

帖子

174

积分

注册会员

Rank: 2

积分
174
发表于 2016-11-2 09:13:44 | 显示全部楼层
HISAT 系列呢,期待HISAT系列
回复 支持 反对

使用道具 举报

9

主题

29

帖子

154

积分

注册会员

Rank: 2

积分
154
发表于 2017-4-28 13:51:53 | 显示全部楼层
您好!我想请教一下,我从TCGA中下载的RNA-seq数据有FPKM,这个毫无疑问,但是,如果是下的miRNA-seq的话,他写的是reads_per_million_miRNA_mapped,应该是RPKM,那这两者之间是不是不一样的,那我对于这两者之间的数据是否就不能进行比较?我有些疑惑,想请教您一下?
回复 支持 反对

使用道具 举报

0

主题

4

帖子

89

积分

注册会员

Rank: 2

积分
89
发表于 2018-3-11 15:31:03 | 显示全部楼层
我想请教一下的是edgeR做差异分析的时候,病例组和正常对不能完全配对(指数目)可以么,因为TCGA只做了72份对照,但是后续分析需要全部病例组归一化后的表达量。。。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-6-25 15:42 , Processed in 0.095676 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.