搜索
查看: 98|回复: 0

[other] 转录组入门——3

[复制链接]

6

主题

8

帖子

120

积分

注册会员

Rank: 2

积分
120
发表于 2017-8-10 19:34:02 | 显示全部楼层 |阅读模式
本帖最后由 mt831 于 2017-8-10 19:33 编辑

SRA Toolkit 软件下载(CentOS 6.8)
官方参考:https://trace.ncbi.nlm.nih.gov/T ... olkit_doc&f=std#s-2
中文参考:http://www.jianshu.com/p/6a4855023330
[AppleScript] 纯文本查看 复制代码
#下载软件包
wget [url=ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-centos_linux64.tar.gz]ftp://ftp-trace.ncbi.nlm.nih.gov ... ntos_linux64.tar.gz[/url]
#解压
tar -zxf sratoolkit.2.8.2-1-centos_linux64.tar.gz 
#解压后文件夹移动到biosoft目录下
mv sratoolkit.2.8.2-1-centos_linux64/ biosoft/
#设置绝对路径
echo 'PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-centos_linux64/bin' >> ~/.bashrc
source ~/.bashrc
#测试安装
fastq-dump -h

fastq-dump参数
官方参考:https://trace.ncbi.nlm.nih.gov/T ... it_doc&f=fastq-dump
中文参考:http://www.biotrainee.com/forum. ... d=1885&fromuid=1685
[AppleScript] 纯文本查看 复制代码
# --split-3 如果是双端测序数据,则输出两个文件,如果不是则只输出一个文件
# -O 指定输出路径 
# --gzip 指定输出格式为gzip压缩格式
# -A --accession 输入sra文件可以是绝对路径

SRA文件转换为fastq文件(仅关注RNA-Seq数据)
[AppleScript] 纯文本查看 复制代码
for i in `seq 56 62`;do fastq-dump --gzip --split-3 -O ~/fastq/ -A ~/ncbi/public/sra/SRR35899${i}.sra;done


生信名词理解
测序reads:高通量测序平台产生的序列标签就称为reads
GC含量:https://zh.wikipedia.org/wiki/GC%E5%90%AB%E9%87%8F
质量值:每测一个碱基会有相应的质量值,质量值用于衡量测序准确度
(http://www.cnblogs.com/daimakun/p/5092312.html)
(https://en.wikipedia.org/wiki/FASTQ_format)
adapter:接头是一段短的序列已知的核酸链,用于连接序列未知的目标测序片段
index:索引序列,是一段很短的寡居核酸链,用于在多个样品混合测序时,标记不同的样品,为区分不同样本而构建(http://www.itwendao.com/article/detail/467548.html)

FastQC软件下载(CentOS 6.8)
官方参考:http://www.bioinformatics.babrah ... /fastqc/INSTALL.txt
中文参考:http://www.jianshu.com/p/6a4855023330
[AppleScript] 纯文本查看 复制代码
java -version
wget [url=http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip]http://www.bioinformatics.babrah ... /fastqc_v0.11.5.zip[/url]
unzip fastqc_v0.11.5.zip
mv FastQC/ biosoft/
cd ~/biosoft/FastQC
chmod 755 fastqc
echo 'PATH=$PATH:~/biosoft/FastQC/' >> ~/.bashrc
source ~/.bashrc
fastqc -h

fastqc
[AppleScript] 纯文本查看 复制代码
# -o 输出目录,需自己创建目录
# --extract 是否解压输出文件,默认自动解压缩zip文件
# -f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别
# -t 同时处理的文件数目
fastqc -o fastqc_out --extract *.fastq.gz

fastqc质控结果
官方参考:http://www.bioinformatics.babrah ... Analysis%20Modules/
中文参考:http://www.jianshu.com/p/14fd4de54402
中文参考:http://fbb84b26.wiz03.com/share/ ... 836uQYm2iZAyh1Zwf3_

批量查看MultiQC软件下载及使用
官方网址:http://multiqc.info/docs/
中文参考:http://fbb84b26.wiz03.com/share/ ... V2GwkwL2AaxYi2fXHP7
[AppleScript] 纯文本查看 复制代码
conda install -c bioconda multiqc
#进入对应文件,扫描zip文件,忽略html文件
multiqc ~/fastq/fastqc_out/*fastqc.zip --ignore *.html

结果查看(multiqc_report.html)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:高通量测序与大数据分析-农学篇》动植物研究
下一篇:bedtools——基因组数据分析的瑞士军刀
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|关于我们|手机版|小黑屋|生信技能树    

GMT+8, 2017-8-22 20:55 , Processed in 0.043473 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.