搜索
查看: 7819|回复: 12

mRNA-seq数据分析实战

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2016-9-6 07:00:23 | 显示全部楼层 |阅读模式
在GEO数据库可以看到详情:GSE52778-RNA-seq-airway 数据首先,还是要通读该文章,了解作者是如何利用他们的数据的,我们才能尽可能的利用好公共数据:
  • Himes BE, Jiang X, Wagner P, Hu R et al. RNA-Seq transcriptome profiling identifies CRISPLD2 as a glucocorticoid responsive gene that modulates cytokine function in airway smooth muscle cells. PLoS One2014;9(6):e99625. PMID: 24926665


测序相关知识:
HASM细胞系-human airway smooth muscle,

The Illumina TruSeq assay was used to prepare 75bp paired-end libraries for HASM cells from four white male donors under four treatment conditions:
1) no treatment;
2) treatment with a β2-agonist (i.e. Albuterol, 1μM for 18h);
3) treatment with a glucocorticosteroid (i.e. Dexamethasone (Dex), 1μM for 18h);
4) simultaneous treatment with a β2-agonist and glucocorticoid
and the libraries were sequenced with an Illumina Hi-Seq 2000 instrument.

首先下载所有的数据并解压成fastq格式:ftp://ftp-trace.ncbi.nlm.nih.gov ... RP/SRP033/SRP033351

数据量有点大,如果从原始数据开始,必须要用服务器才行的,加上各种中间数据,可能需要占200G左右的空间~!
常规数据处理过程 sra-->fastq-->bam-->counts-->DEG-->GO/KEGG
非常规流程见 https://en.wiki2.org/wiki/List_of_RNA-Seq_bioinformatics_tools





上一篇:表达芯片数据分析实战四:配对样本差异分析
下一篇:CHIP-seq数据分析实战之组蛋白修饰-H3K27ac
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-2-14 23:02:35 | 显示全部楼层
mark一下,准备用实验室的测序数据完成一次mRNA-seq数据分析,mark一下群主的流程,同时mark一下今天的日期,看看什么时候能够完整的流程,什么时候能够整理出像样的数据,到时候再来汇报。
回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-15 00:23:52 | 显示全部楼层
tingting 发表于 2017-2-14 23:02
mark一下,准备用实验室的测序数据完成一次mRNA-seq数据分析,mark一下群主的流程,同时mark一下今天的日期 ...

赞,我们公众号有所有的代码,回复老司机就可以获取啦
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-2-15 22:41:09 | 显示全部楼层
Jimmy 发表于 2017-2-15 00:23
赞,我们公众号有所有的代码,回复老司机就可以获取啦

真是太好了!简直急我所需啊!

不过,我的data是rawdata,如何处理成cleandata还很迷茫啊!

直接用trimmomatic处理丢掉了大概一半的reads,查了网上资料,似乎生信菜鸟团上的一个帖子一样(不知道是不是群主写的?),不过帖子里面没有写怎么解决的这个问题(或者我没理解清楚如何解决的)

这是帖子的连接:
http://www.bio-info-trainee.com/1958.html

里面我看到帖子里面写的文件log日志中有这样一句:Input Read Pairs: 21427010 Both Surviving: 14507723 (67.71%) Forward Only Surviving: 5297811 (24.72%) Reverse Only Surviving: 375547 (1.75%) Dropped: 1245929 (5.81%)

帖子里面还有这样一句:比如我们拿第一个序列举例,可以看到第一条序列被trimmomatic丢到了output_forward_unpaired.fq.gz,它就懒得给它去除接头了,因为右端序列更可怜!

不知道是不是同样原因,我数据跑出来的log日志中更惨:Input Read Pairs: 46551253 Both Surviving: 26830194 (57.64%) Forward Only Surviving: 19709026 (42.34%) Reverse Only Surviving: 5824 (0.01%) Dropped: 6209 (0.01%)

不知道怎么解决。

后来又试了cutadapt,还没用会,也是问题一大堆,而且网上cutadapt相关资料还特别少。。。。看来大家都是cleandata啊!


回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-16 09:01:19 | 显示全部楼层
tingting 发表于 2017-2-15 22:41
真是太好了!简直急我所需啊!

不过,我的data是rawdata,如何处理成cleandata还很迷茫啊!

博客的内容,必然都是我写的!~~~
关于质控,这一块太考验技术水平了,唉,有些东西我也说不出来。
http://www.bio-info-trainee.com/2321.html
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-2-22 08:38:47 | 显示全部楼层
Jimmy 发表于 2017-2-16 09:01
博客的内容,必然都是我写的!~~~
关于质控,这一块太考验技术水平了,唉,有些东西我也说不出来。
http: ...

用了几天时间终于把cutadapt参数全搞清楚了,试用了一个样品跑了下,似乎还可以,用cutadapt和trimmomatic一起处理rawdata,fastqc结果似乎还不错,不知道数据的重复性如何。这两天做所有样品的两个重复看看PCA结果再来汇报一下
回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-2-22 09:34:01 | 显示全部楼层
tingting 发表于 2017-2-22 08:38
用了几天时间终于把cutadapt参数全搞清楚了,试用了一个样品跑了下,似乎还可以,用cutadapt和trimmomati ...

赞,希望你可以加入我们的转录组版块微信交流群,微信公众号后台联系我,我拉你进去
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-2-26 13:40:16 | 显示全部楼层
这两天用自己从rawdata处理出来的cleandata的所有样品都跑了fastqc,fastqc结果还有1-3个X,不过找其他人要了几个公司发来的cleandata,用trimmomatic处理以后跑fastqc似乎和我的结果差不多,他们说也不可能完全没有X。另外自己处理的cleandata跑了下tophat,双向比对率全部在95%以上,我觉得应该可以说明自己处理的cleandata还是合格的了,cuffnorm和cuffdiff已经跑完了,可惜R没学好,别人给的PCA脚本看不懂,恶补一下R语言再继续往后分析吧。
回复 支持 反对

使用道具 举报

5

主题

26

帖子

286

积分

中级会员

Rank: 3Rank: 3

积分
286
发表于 2017-6-29 15:14:11 | 显示全部楼层
看到评论区,我也mark一下这个帖子和日期吧,第一次完整的开始走一个mRNA的流程,葡萄科的进化分析,组装,在swissprot注释和找cds,然后找低拷贝(单拷贝)基因,然后做进化树,希望一个星期后能回来报道
回复 支持 反对

使用道具 举报

1

主题

55

帖子

790

积分

高级会员

Rank: 4

积分
790
发表于 2017-8-23 16:54:17 | 显示全部楼层
想请问一下群主这个网站帖子的收藏在哪里能看到啊,找了半天没找到
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-3-26 19:08 , Processed in 0.043765 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.