搜索
查看: 1932|回复: 0

[mRNA-seq] (2- 伪)从零开始学转录组:读文章拿到测序数据

[复制链接]

23

主题

37

帖子

374

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
374
发表于 2017-8-7 09:31:31 | 显示全部楼层 |阅读模式
(伪)从零开始学转录组:读文章拿到测序数据  原文链接

本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件

数据下载部分
第一步:在PubMeb上查找文献
第二步: 根据文献的method部分找到RNA-Seq是如何存放的
第三步: 在GEO上查找GSE81916
GEO站点: https://www.ncbi.nlm.nih.gov/geo/
找到了NCBI的SRA工具下载所需要的SRR编号。
FTP网址ftp://ftp-trace.ncbi.nlm.nih.gov ... RP/SRP075/SRP075747 可以分为以下几个部分
  • 所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
  • reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
  • ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.
  • sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。

第四步:通过循环,分别用prefetch下载数据
[AppleScript] 纯文本查看 复制代码
for i in `seq 48 62`;
do
    prefetch SRR35899${i}
done
prefetch下载的数据一般存放在~/ncbi/sra文件下,prefecth在下载前会先查找该文件下是否已经存在该文件。
sratoolkit的其他软件,比如说fastqdump 在没有根据你给的路径找到文件,也会先进行下载。
知识点:如何用循环批量下载数据
: 数据很大,需要下载很久,这段时间去看文章所用的分析方法。
除了用prefetch之外还存在其他下载方案。
文章所用方法:
内容主要在Bioinformatic analyses部分
比对
  • 比对软件:TopHat (v2.0.13)
  • 参考基因组:human reference genome (GRCh37/hg19)
  • GTF文件: GTF version GRCh37.70
  • 只保留MQ >30的map结果
  • Picard-tools (v1.126): 计算平均插入大小(mean insert sizes)和标准差

read count: 软件:HTSeq v0.6.0
差异表达分析: DESeq (v3.0)
差异外显子使用分析: DEXSeq (v3.1)
GO富集分析:DAVID (http://david.ncifcrf.gov/).
实验设计
样本9-15为mRNA-Seq测序结果,用于分析人类293个细胞(9-11)和小鼠ES细胞(12-15)d的AKAP95敲出影响。







上一篇:求助用于amplicon sequencing的demultiplexing软件
下一篇:(3-伪)转录组入门:了解fastq测序数据
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-14 22:16 , Processed in 0.028445 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.