搜索
查看: 2430|回复: 3

[mRNA-seq] 转录组的老套路分析

[复制链接]

3

主题

20

帖子

342

积分

中级会员

Rank: 3Rank: 3

积分
342
发表于 2017-12-27 20:08:37 | 显示全部楼层 |阅读模式
本帖最后由 tianzhanlan 于 2017-12-27 20:30 编辑

生信菜鸟一枚,游走在测序公司的实验室,想做生信方面的工作,自己在钻研中,希望能转岗成功,不说废话了·······
之前在简书上看过一篇文章https://www.jianshu.com/p/1f5d13cc47f8是重复16年发表在NATUREPROTOCOLS上面的一篇处理RNA-seq数据的文章,文章名字是:Transcript-level expression analysis of RNA-seq experiments with HISAT,StringTie and Ballgown,主要讲了用Hisat2StringTieBallgown三款软件对转录组的数据进行分析,这三款软件的分析效率比较高,今天我尝试用大家熟悉的老套路老方法分析下这组数据。文章中的所有数据如下图,我是用win10wsl系统进行分析的(无奈,没有服务器啊!),在这就不做质控了,直接从建立索引开始。
上图中的indexeshisat2的索引文件,在这里我们用老套路中的bowtie重新构建索引。我的是Ubuntu系统,安装bowtie2直接命令行:
[AppleScript] 纯文本查看 复制代码
$sudo apt install bowtie2
构建好的索引和chrX.fa放在一起,如下图:

然后用tophat2进行比对,为了节省时间,写了个脚本1.sh:
[AppleScript] 纯文本查看 复制代码
for i in {188044,188144,188145,188257,188273,188337,188383,188401,188428,188454,204916};do tophat2 –p 4 –o ERR${i}-out /mnt/f/data/chrX_data/genome/chrX ./samples /ERR${i}_chrX_1.fastq.gz ./samples/ERR${i}_chrX_2.fastq.gz 
done
但是在执行时却出现了报错,具体报错信息贴在下面了:
哪位大神能够给指导下,在线等###################···················只能用笨方法了,还好就只有12个样本,所以在比对结束后输出12个文件夹,如下图:
而每个输出文件的内容大概有以下6个文件和一个日志文件夹,以输出的ERR188044为例:
接下来分析我们主要用到accepted_hits.bam文件,利用cuffdiff基于参考注释对这12个样本进行表达差异分析,具体代码如下:
[AppleScript] 纯文本查看 复制代码
cuffdiff -o expdiff –b ./genome/chrX.fa –L ERR188044, ERR188104, ERR188234, ERR188245, ERR188257, ERR188273, ERR188337, ERR188383, ERR188401, ERR188428,ERR188454,ERR204916 -u ./genes/chrX.gtf ./ERR188044-out/accepted_hits.bam ./ERR188104-out/accepted_hits.bam ./ERR188234-out/accepted_hits.bam ./ERR188245-out/accepted_hits.bam ./ERR188257-out/accepted_hits.bam ./ERR188273-out/accepted_hits.bam ./ERR188337-out/accepted_hits.bam ./ERR188383-out/accepted_hits.bam ./ERR188401-out/accepted_hits.bam ./ERR188428-out/accepted_hits.bam ./ERR188454-out/accepted_hits.bam ./ERR204916-out/accepted_hits.bam 
接下来就利用R语言中cummeRbund包对结果进行可视化分析了,你们自由发挥吧。
写在最后:第一次发帖,其中有些写的过于简单,请多包涵。希望自己不要放弃对生信的坚持,每天多学习一点,充实自己,肯定能找一份生物信息的分析工作,有没有需要菜鸟的,大家帮忙推荐下。感谢生信技能树,很棒的平台!!!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:直播编程第二题
下一篇:真核生物基因结构图
回复

使用道具 举报

3

主题

20

帖子

342

积分

中级会员

Rank: 3Rank: 3

积分
342
 楼主| 发表于 2017-12-27 20:26:01 | 显示全部楼层
那个1.sh脚本贴出来好像出了点问题,准确的是这样:
[AppleScript] 纯文本查看 复制代码
for i in {188044,188144,188145,188257,188273,188337,188383,188401,188428,188454,204916};do tophat2 –p 4 –o ERR${i}-out /mnt/f/data/chrX_data/genome/chrX ./samples/ERR${i}_chrX_1.fastq.gz ./samples/ERR${i}_chrX_2.fastq.gz 
done
回复 支持 1 反对 0

使用道具 举报

1

主题

55

帖子

824

积分

高级会员

Rank: 4

积分
824
发表于 2017-12-30 14:52:41 | 显示全部楼层
貌似文章的作者都不推荐用cuffdiff了,可以用DESeq或者其他

回复 支持 反对

使用道具 举报

3

主题

20

帖子

342

积分

中级会员

Rank: 3Rank: 3

积分
342
 楼主| 发表于 2017-12-30 22:02:40 | 显示全部楼层
本帖最后由 tianzhanlan 于 2017-12-31 15:29 编辑
生信小小菜鸟 发表于 2017-12-30 14:52
貌似文章的作者都不推荐用cuffdiff了,可以用DESeq或者其他

文章作者好像用的是hisat2+ballgown+stringtie
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-17 07:15 , Processed in 0.032510 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.