搜索
查看: 1053|回复: 1

[mRNA-seq] RNA-seq上游分析-01

[复制链接]

6

主题

6

帖子

115

积分

注册会员

Rank: 2

积分
115
发表于 2019-4-23 16:08:08 | 显示全部楼层 |阅读模式
本帖最后由 dasunjie6 于 2019-4-23 16:10 编辑

一、Linux环境搭建

1.下载miniconda https://conda.io/miniconda.html Linux Python2.7
[Shell] 纯文本查看 复制代码
cd src
wget [url=https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh]https://repo.continuum.io/minico ... est-Linux-x86_64.sh[/url]
bash Miniconda2-latest-Linux-x86_64.sh

根据提示,最后会安装到 ~/miniconda2 下
2.添加bioconda channel, 目前还没有国内源
[Shell] 纯文本查看 复制代码
conda config --add channels [url=https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/]https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/[/url]
conda config --add channels [url=https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/]https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/[/url]
conda config --add channels [url=https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/]https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/[/url]
conda config --add channels bioconda
conda config --set show_channel_urls yes

3.用conda安装软件sratoolkit,fastqc,hisat2,samtools,htseq-count, 与网络有着密切的关系
查询可供安装的软件, https://bioconda.github.io/recipes.html#recipes
[Shell] 纯文本查看 复制代码
conda create -n biostar sra-tools fastqc hisat2 samtools htseq

二、数据下载

1.网址:ftp://ftp.ncbi.nlm.nih.gov/sra/s ... R/SRR979/SRR979792/
2. Aspera Connect命令行工具-ascp
[Shell] 纯文本查看 复制代码
wget [url=http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz]http://download.asperasoft.com/d ... 727-linux-64.tar.gz[/url]  
 #解压缩 
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
 # install
bash aspera-connect-3.7.4.147727-linux-64.sh
# check the .aspera directory
cd # go to root directory
ls -a # if you could see .aspera, the installation is OK
# add environment variable
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc   
#密钥备份到/home/的家目录(后面会用,否则报错)
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
# check help file
ascp –help

下载SRA数据:SRA数据库
[Shell] 纯文本查看 复制代码
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [url=mailto:anonftp@ftp-private.ncbi.nlm.nih.gov]anonftp@ftp-private.ncbi.nlm.nih.gov[/url]:/sra/sra instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ./


或者
[Shell] 纯文本查看 复制代码
ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [url=mailto:anonftp@ftp-private.ncbi.nlm.nih.gov]anonftp@ftp-private.ncbi.nlm.nih.gov[/url]:sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra ./

样本数目多则可以写循环输出到一个shell脚本文件中,一行代码一个样本,这样即使某一个样本中断了也不影响其它样本的下载,再运行这个脚本;
如:
有SRR列表文件:
[Shell] 纯文本查看 复制代码
srrlist.txt
$cat srrlist.txt
SRR2120858
SRR2120859
SRR2120879
SRR2120880
SRR2120881
SRR2120887
SRR2120888


[Shell] 纯文本查看 复制代码
#!bin/sh
for k in $(cat $1)
do
        ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [url=mailto:anonftp@ftp-private.ncbi.nlm.nih.gov]anonftp@ftp-private.ncbi.nlm.nih.gov[/url]:sra/sra-instant/reads/ByRun/sra/SRR/${k:0:6}/$k/$k.sra ./
done


将脚本保存为:ascp.sh
运行:
[Shell] 纯文本查看 复制代码
nohup sh ascp.sh srrlist.txt &

其他方法(R):
使用SRAdb包
[AppleScript] 纯文本查看 复制代码
source('http://bioconductor.org/biocLite.R') 
biocLite('SRAdb') 
library(SRAdb) 
srafile = getSRAdbFile() 
con = dbConnect('SQLite',srafile) 
2使用GEOquery包
[AppleScript] 纯文本查看 复制代码
library(GEOquery)
gse <- getGEO('GSE48138') # retrieves a GEO list set for your SRA id.
## see what is in there:
show(gse)
# There are 2 sets of samples for that ID
##  what you want is table a with SRR to download and some sample information:
## lets see what the first set contains:
df <- as.data.frame(gse[[1]])
head(df)








使用命令行ftp下载

wget命令
比如
[Shell] 纯文本查看 复制代码
wget [url=ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP%2FSRP055%2FSRP055992/SRR1871481/SRR1871481.sra]ftp://ftp-trace.ncbi.nlm.nih.gov ... 1481/SRR1871481.sra[/url]


SRA toolkit的prefetch命令
比如,单个下载
[AppleScript] 纯文本查看 复制代码
prefetch -v SRR925811

或批量下载
[Shell] 纯文本查看 复制代码
for i in `seq 48 62`; 
do 
prefetch SRR35899${i} 
done


还可以多个一起下载
先找到要下载的页面,比如https://www.ncbi.nlm.nih.gov/sra,然后右上角,send to-file,format选择accession list,保存为一个file(默认是SraAccList.txt),然后
[Shell] 纯文本查看 复制代码
prefetch $(<SraAccList.txt)





fastq-dump

下载fastq文件
直接
[Shell] 纯文本查看 复制代码
 fastq-dump -O ./ ++SRR号
-O 文件保存目录
fastq-dump -O ./ SRR2120881







SRA文件格式转换

最近NCBI的数据格式由于空间缘故都转换成了*.sra格式,不再支持*.fastq.gz,因此需要一个特别的转化工具来转换下载的*.sra数据文件。


Fastq-dump: 一个神奇的软件

搬运自
https://www.jianshu.com/p/a8d70b66794c
对于一个你不知道到底是单端还是双端的SRA文件,一律用--split-3.
[Shell] 纯文本查看 复制代码
fastq-dump --gzip --split-3 -O /mnt/f/Data/RNA-Seq -A SRR3589956





关于质控
[Shell] 纯文本查看 复制代码
fastqc SRR3589956_1.fastq.gz

结果会得到一个html文件和一个zip压缩包。
质量报告解读参考
https://www.jianshu.com/p/bacb86c78b43(优秀)
https://zhuanlan.zhihu.com/p/20731723(优秀)
http://www.biotrainee.com/thread-324-1-1.html
如何做质控参考
https://zhuanlan.zhihu.com/p/20776942
其他(关于接头等)
https://www.bbsmax.com/A/ke5jepN7Jr/
http://blog.sina.com.cn/s/blog_14d1975e90102x5o1.html










本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:illumina 双端测序(pair end)(搬运)
下一篇:记一次Ubuntu下环境变量配置
回复

使用道具 举报

4

主题

20

帖子

391

积分

中级会员

Rank: 3Rank: 3

积分
391
发表于 2019-5-3 21:11:18 | 显示全部楼层
很完整的分析例子,思路非常好,学习了,谢谢!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-7-24 02:40 , Processed in 0.036699 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.