搜索
查看: 2225|回复: 1

[mRNA-seq] 转录组作业(二):来自零基础的小白

[复制链接]

5

主题

19

帖子

209

积分

中级会员

Rank: 3Rank: 3

积分
209
发表于 2017-8-9 10:53:12 | 显示全部楼层 |阅读模式
本帖最后由 空格键在末尾 于 2017-8-9 17:33 编辑

一、任务回顾
转录组入门(2):读文章拿到测序数据
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件
作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!本次任务只需要关注RNA-seq data数据!
文章链接:https://www.nature.com/articles/ncomms13347
来源: http://www.biotrainee.com/thread-1743-1-1.html

二、实验过程
1.数据查看:我们首先阅读文章的方法部分,从Bioinformatic analyses中把软件和参数找出来,另外根据Data availability的GSE81916,我们去NCBI的Gene expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/ )搜索 ,界面:

在这一页的Overall design:样品1-8为(Rip)-seq,9-15为mRNA-seq。(点击Samples里面的样品,查看9-15号的数据对应哪些SRA文件)
我们到页面的最下方,找到ftp,点击之后便可以看见数据索引了,包含15个SRR文件,点击即可查看信息,注意页面标题和链接地址的规律变化,点击上级目录,我们可以看见数据的分类位置。
2.数据下载:
(1):这里参照考了徐洲更师兄、青山屋主等人的方法,主要是要理解选择不同的数据规律变化。下载命令如下:
[AppleScript] 纯文本查看 复制代码
for i in `seq 56 62`
do
prefetch SRR35899${i}
done

下载成功会有这种提示:
prefetch.2.8.1: 1) Downloading 'SRR3589956'...
prefetch.2.8.1: Downloading via https...
prefetch.2.8.1: 1) 'SRR3589956' was downloaded successfully

参考链接1:http://www.biotrainee.com/thread-1829-1-1.html
参考链接2:http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
(2)Aspera下载:这里简单说一下安装方法,下载数据方法请结合参考链接进行摸索。
下载官网:

进入后,downloads分为几个小板块,根据需要,自行下载(软件都是最新版,可以选择Documentation查旧版本,但是无法下载):
①SERVER SOFTWARE/aspera connect server
点击进入选择linux图标,分为v3.7.3-linux-RPMx86-64和v3.6.2-linux-RPMx86,下载时需要输入用户名和密码进行授权(下载这个的请自行查找方法解决)。
②CLIENT SOFTWARE/aspera connect
点击进入后可以直接看见linux-64位的安装,选择下载后得到64位的安装包(ps:刚点击进入看见linux-64位下载时,最下面有行小字:请参阅所有安装程序(English),这个点击进入后,和上面下载的界面基本相似,分为v3.7.3-linux x86-64和v3.6.2-linux x86,64位下载出来是脚本文件)。
安装和下载基因组攻略
另外也可以在NCBI-books里面输入SRA,查找下载方法(https://www.ncbi.nlm.nih.gov/books/?term=SRA )。
使用命令安装时,要注意命令是否需要自行更改,特别要注意安装包或者脚本文件的名称的正确性,看清楚ByRun和ByStudy。在这里纠结了 很久,看了青山屋主一句话才恍然大悟,在这里也送给大家:
(3)软件及参数说明:
①TopHat (v2.0.13):(http://ccb.jhu.edu/software/tophat/index.shtml

②GTF version GRCh37.70:gene transfer file
③Picard-tools (v1.126):calculate the mean size and the s.d.'(http://broadinstitute.github.io/picard/)


mRNA-Seq:
①HTSeq (v0.6.0):generate read count tables
②DESeq (v3.0):perform deferential expression(DE) analysis of genes
③DEXSeq (v3.1):perform deferential exon usage
④BEDTools (v2.17.0)/bedGraphToBigWig tool (v4):generate the read per million normalized BigWig files
⑤R (v3.1.1)(http://www.r-project.org/):perform all the downstream statistical analyses and generating plots
⑥DAVID (http://david.ncifcrf.gov/):perfprm Gene ontology analysis
RIP-Seq:
①Model-based Analysis of ChIP-Seq (MACS) (v1.4.2 20120305):for  peak calling ,pass mapped file
②HOMER (vv3.12, 6-8-2012) (http://homer.salk.edu/homer/):motif finding
③BEDTools /SAMtools (v0.1.18):perform peak annotations and coverage calculations for 'these genomic regions'
④ngs.plot (v2.47):generate profile plots














本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:omim数据库数据如何下载
下一篇:转录组作业(三):来自零基础的小白
My heart is in the work.
回复

使用道具 举报

5

主题

19

帖子

209

积分

中级会员

Rank: 3Rank: 3

积分
209
 楼主| 发表于 2017-8-9 15:11:08 | 显示全部楼层
本帖最后由 空格键在末尾 于 2017-8-9 15:19 编辑

小白心得体会,到了这个阶段,我认识到了随手做笔记的重要性,虽然之前都是直接在本子上手写,但是要使用笔记的内容始又要重新去打一遍,所以这时网络在线笔记就很有必要了。
在这里感谢青山屋主带来的为知笔记,当然有人用简书,有人用博客,虽然方式不同,目的大致是一样的。本来我也想直接把为知笔记的链接贴出来,就试了一下帖网页版的链接,结果需要登录,最头疼的还不能看到,因为我没有开为知笔记的会员,所以不能像青山屋主那样把为知笔记贴出来。后面想着直接把内容贴过来,字符超出限制,而且排版超级乱。现在这里的都缩水了,有些没有放进来,不过不影响查看。附件是我传的PDF版。不过以后我也不贴链接了,不方便查看,不方便交流。
我知道自己有很多不足很多不会,我敢承认这些,也敢暴露自己这些,光说这些都没用,哪里不足补哪里就好了。有时候想着提高自己的效率,在电脑跑程序时就认真做下一步的分析和思考。转录组我的进度有点慢,很多人都跑在前面了,不过感谢他们的经验。
作为一个小白,我很羡慕大神一下就能找到思路,希望有一天自己能够积累起来,去无限接近大神眼里的世界吧。
My heart is in the work.
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-14 22:21 , Processed in 0.257149 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.