搜索
查看: 6772|回复: 1

[mRNA-seq] RNA-seq上游分析-01

[复制链接]

6

主题

6

帖子

115

积分

注册会员

Rank: 2

积分
115
发表于 2019-4-23 16:08:08 | 显示全部楼层 |阅读模式
本帖最后由 dasunjie6 于 2019-4-23 16:10 编辑

一、Linux环境搭建

1.下载miniconda https://conda.io/miniconda.html Linux Python2.7
[mw_shl_code=shell,true]cd src
wget https://repo.continuum.io/minico ... est-Linux-x86_64.sh
bash Miniconda2-latest-Linux-x86_64.sh[/mw_shl_code]
根据提示,最后会安装到 ~/miniconda2 下
2.添加bioconda channel, 目前还没有国内源
[mw_shl_code=shell,true]conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels bioconda
conda config --set show_channel_urls yes[/mw_shl_code]
3.用conda安装软件sratoolkit,fastqc,hisat2,samtools,htseq-count, 与网络有着密切的关系
查询可供安装的软件, https://bioconda.github.io/recipes.html#recipes
[mw_shl_code=shell,true]conda create -n biostar sra-tools fastqc hisat2 samtools htseq[/mw_shl_code]
二、数据下载

1.网址:ftp://ftp.ncbi.nlm.nih.gov/sra/s ... R/SRR979/SRR979792/
2. Aspera Connect命令行工具-ascp
[mw_shl_code=shell,true]wget http://download.asperasoft.com/d ... 727-linux-64.tar.gz  
#解压缩
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
# install
bash aspera-connect-3.7.4.147727-linux-64.sh
# check the .aspera directory
cd # go to root directory
ls -a # if you could see .aspera, the installation is OK
# add environment variable
echo 'export PATH=~/.aspera/connect/binPATH' >> ~/.bashrc
source ~/.bashrc   
#密钥备份到/home/的家目录(后面会用,否则报错)
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
# check help file
ascp –help[/mw_shl_code]
下载SRA数据:SRA数据库
[mw_shl_code=shell,true]ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ./[/mw_shl_code]

或者
[mw_shl_code=shell,true]ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra ./[/mw_shl_code]
样本数目多则可以写循环输出到一个shell脚本文件中,一行代码一个样本,这样即使某一个样本中断了也不影响其它样本的下载,再运行这个脚本;
如:
有SRR列表文件:
[mw_shl_code=shell,true]srrlist.txt
$cat srrlist.txt
SRR2120858
SRR2120859
SRR2120879
SRR2120880
SRR2120881
SRR2120887
SRR2120888[/mw_shl_code]

[mw_shl_code=shell,true]#!bin/sh
for k in $(cat $1)
do
        ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/${k:0:6}/$k/$k.sra ./
done[/mw_shl_code]

将脚本保存为:ascp.sh
运行:
[mw_shl_code=shell,true]nohup sh ascp.sh srrlist.txt &[/mw_shl_code]
其他方法(R):
使用SRAdb包
[mw_shl_code=applescript,true]source('http://bioconductor.org/biocLite.R')
biocLite('SRAdb')
library(SRAdb)
srafile = getSRAdbFile()
con = dbConnect('SQLite',srafile) [/mw_shl_code]2使用GEOquery包
[mw_shl_code=applescript,true]library(GEOquery)
gse <- getGEO('GSE48138') # retrieves a GEO list set for your SRA id.
## see what is in there:
show(gse)
# There are 2 sets of samples for that ID
##  what you want is table a with SRR to download and some sample information:
## lets see what the first set contains:
df <- as.data.frame(gse[[1]])
head(df)
[/mw_shl_code]







使用命令行ftp下载

wget命令
比如
[mw_shl_code=shell,true]wget ftp://ftp-trace.ncbi.nlm.nih.gov ... 1481/SRR1871481.sra[/mw_shl_code]

SRA toolkit的prefetch命令
比如,单个下载
[mw_shl_code=applescript,true]prefetch -v SRR925811[/mw_shl_code]
或批量下载
[mw_shl_code=shell,true]for i in `seq 48 62`;
do
prefetch SRR35899${i}
done[/mw_shl_code]

还可以多个一起下载
先找到要下载的页面,比如https://www.ncbi.nlm.nih.gov/sra,然后右上角,send to-file,format选择accession list,保存为一个file(默认是SraAccList.txt),然后
[mw_shl_code=shell,true]prefetch $(<SraAccList.txt)[/mw_shl_code]




fastq-dump

下载fastq文件
直接
[mw_shl_code=shell,true] fastq-dump -O ./ ++SRR号
-O 文件保存目录
fastq-dump -O ./ SRR2120881[/mw_shl_code]




21.png

SRA文件格式转换

最近NCBI的数据格式由于空间缘故都转换成了*.sra格式,不再支持*.fastq.gz,因此需要一个特别的转化工具来转换下载的*.sra数据文件。


Fastq-dump: 一个神奇的软件

搬运自
https://www.jianshu.com/p/a8d70b66794c
对于一个你不知道到底是单端还是双端的SRA文件,一律用--split-3.
[mw_shl_code=shell,true]fastq-dump --gzip --split-3 -O /mnt/f/Data/RNA-Seq -A SRR3589956[/mw_shl_code]




关于质控
[mw_shl_code=shell,true]fastqc SRR3589956_1.fastq.gz[/mw_shl_code]
结果会得到一个html文件和一个zip压缩包。
质量报告解读参考
https://www.jianshu.com/p/bacb86c78b43(优秀)
https://zhuanlan.zhihu.com/p/20731723(优秀)
http://www.biotrainee.com/thread-324-1-1.html
如何做质控参考
https://zhuanlan.zhihu.com/p/20776942
其他(关于接头等)
https://www.bbsmax.com/A/ke5jepN7Jr/
http://blog.sina.com.cn/s/blog_14d1975e90102x5o1.html













上一篇:illumina 双端测序(pair end)(搬运)
下一篇:记一次Ubuntu下环境变量配置
回复

使用道具 举报

4

主题

20

帖子

395

积分

中级会员

Rank: 3Rank: 3

积分
395
发表于 2019-5-3 21:11:18 | 显示全部楼层
很完整的分析例子,思路非常好,学习了,谢谢!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-4-6 01:05 , Processed in 0.023773 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.