搜索
查看: 5224|回复: 6

[other] RNA-seq基础入门传送门

[复制链接]

623

主题

1135

帖子

3798

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3798
发表于 2017-6-25 23:22:52 | 显示全部楼层 |阅读模式
转录组入门(1):计算机资源的准备
最好是有mac或者linux系统,8G+的内存,500G的存储即可。
如果你是Windows,那么安装必须安装 git,notepad++,everything,还有虚拟机,在虚拟机里面安装linux,最好是ubuntu。
需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
软件安装的代码,在生信技能树公众号后台回复老司机即可拿到。
进阶作业,每个软件都收集一个中文教程链接,并自己阅读,发在论坛里面。
目前有5份优秀作业,请大家学习:
转录组(一)作业  ( HOPTOP )
转录组入门(1)-作业  (青山屋主)
转录组入门(1)Mac上软件准备作业
PANDA姐的转录组入门(1):计算机资源的准备
转录组作业(一):来自零基础的小白
转录组入门作业(1)软件准备yojoy123
(1)转录组之软件安装(ZGN1)

转录组入门(2):读文章拿到测序数据
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件
作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!优秀作业如下:
转录组入门(二)作业 New(HOPTOP)
转录组入门(2)-作业(青山屋主)
PANDA姐的转录组入门(2):读文章拿到测序数据




转录组入门(3):了解fastq测序数据
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量!
作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
目前优秀作业有:
转录组(三):作业HOPTOP
转录组入门(3)-作业(青山屋主)
PANDA姐的转录组入门(3):了解fastq测序数据
转录组(3):了解fastq测序数据 (兮兮狼)


转录组入门(4):了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
目前优秀作业是:
hoptop的:转录组作业(四) - [阅读权限 10]New



转录组入门(5): 序列比对
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。
直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。
接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看!
顺便对bam文件进行简单QC,参考直播我的基因组系列。
目前优秀作业是:
转录组入门(5): 序列比对(HOPTOP)

转录组入门(6): reads计数
实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。
需要用脚本合并所有的样本为表达矩阵。参考:生信编程直播第四题:多个同样的行列式文件合并起来
对这个表达矩阵可以自己简单在excel或者R里面摸索,求平均值,方差。
看看一些生物学意义特殊的基因表现如何,比如GAPDH,β-ACTIN等等。
转录组入门(6):reads技术(HOPTOP)


这是一个分水岭,后面的分析主要靠R了,前面的分析都最好是在linux系统下面完成,主要是安装软件,下载数据,运行。有几个笔记不错的整合作业:
转录组入门(1-6)从测序数据到生成count矩阵(alan)
http://www.zd200572.com/2017/07/15/2017-RNAseq-executing/ (JD加栋 的个人博客)


转录组入门(7): 差异基因分析
这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。
基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点。

转录组入门(8): 差异基因结果注释
我们统一选择p<0.05而且abs(logFC)大于一个与众的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析。
然后把表达矩阵和分组信息分别作出cls和gct文件,导入到GSEA软件分析。
基本任务是完成这个分析。



最后,把同样的代码实践与其它几篇转录组文章,并且把代码和分析结果发在论坛上面;
http://biotrainee.com/jmzeng/RNA ... E81916-two-group.sh
http://biotrainee.com/jmzeng/RNA-seq/DEG.zip
我以前在博客写过的
http://www.bio-info-trainee.com/2218.html
比如可以来一个实战:
生信技能树»生信技能树互动作业项目实战mRNA-seq数据分析实战
最后:点击加入转录组学小组开始招人啦





上一篇:转录组入门(8): 差异基因结果注释
下一篇:GOsim计算GO terms之间的功能相似性和GO富集分析
回复

使用道具 举报

0

主题

2

帖子

47

积分

新手上路

Rank: 1

积分
47
发表于 2017-6-26 00:46:44 | 显示全部楼层
貌似要去买一台电脑了
回复 支持 反对

使用道具 举报

0

主题

4

帖子

131

积分

注册会员

Rank: 2

积分
131
发表于 2017-7-9 20:15:34 | 显示全部楼层
学习一下~
回复

使用道具 举报

4

主题

14

帖子

313

积分

中级会员

Rank: 3Rank: 3

积分
313
QQ
发表于 2017-7-15 11:55:27 | 显示全部楼层
搞了条8g条,学习一下。
吐嘈一下,棒子、美帝把持内存、cpu什么的,赶紧的把他们超过,坐地起价。
初学菜鸟,欢迎交流!刚学习了《Python生物信息学数据管理》,正在学Rosalind的相关习题。
https://github.com/zd200572/
http://www.zd200572.com
回复 支持 反对

使用道具 举报

0

主题

3

帖子

173

积分

注册会员

Rank: 2

积分
173
发表于 2017-7-17 20:44:30 | 显示全部楼层
AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 这个文章你们做出来的结果和文章的Supplementary Data 1一样吗?
我用的featurecounts,结果差别挺大的。然后翻了翻featurecounts的文章,好像差别是有些,不知道实际应用的时候怎么样。
回复 支持 反对

使用道具 举报

0

主题

6

帖子

39

积分

新手上路

Rank: 1

积分
39
发表于 2017-7-31 18:26:12 | 显示全部楼层
求助啊,miniconda文件放在下载里或者资源库里,bash还是找不到,是不是因为我的电脑用了中文。电脑小白,百度了很久也没有解决。。。这不能成为阻挠我学习生信的鸿沟啊

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

2

主题

32

帖子

211

积分

中级会员

Rank: 3Rank: 3

积分
211
QQ
发表于 2017-8-7 20:29:22 | 显示全部楼层
新手没人教花了两周时间跑完是什么水平?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|关于我们|手机版|小黑屋|生信技能树    

GMT+8, 2017-8-22 20:58 , Processed in 0.036992 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.