搜索
查看: 2320|回复: 0

[other] 转录组入门——3

[复制链接]

6

主题

8

帖子

879

积分

高级会员

Rank: 4

积分
879
发表于 2017-8-10 19:34:02 | 显示全部楼层 |阅读模式
本帖最后由 mt831 于 2017-8-10 19:33 编辑

SRA Toolkit 软件下载(CentOS 6.8)
官方参考:https://trace.ncbi.nlm.nih.gov/T ... olkit_doc&f=std#s-2
中文参考:http://www.jianshu.com/p/6a4855023330
[mw_shl_code=applescript,true]#下载软件包
wget ftp://ftp-trace.ncbi.nlm.nih.gov ... ntos_linux64.tar.gz
#解压
tar -zxf sratoolkit.2.8.2-1-centos_linux64.tar.gz
#解压后文件夹移动到biosoft目录下
mv sratoolkit.2.8.2-1-centos_linux64/ biosoft/
#设置绝对路径
echo 'PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-centos_linux64/bin' >> ~/.bashrc
source ~/.bashrc
#测试安装
fastq-dump -h[/mw_shl_code]
fastq-dump参数
官方参考:https://trace.ncbi.nlm.nih.gov/T ... it_doc&f=fastq-dump
中文参考:http://www.biotrainee.com/forum. ... d=1885&fromuid=1685
[mw_shl_code=applescript,true]# --split-3 如果是双端测序数据,则输出两个文件,如果不是则只输出一个文件
# -O 指定输出路径
# --gzip 指定输出格式为gzip压缩格式
# -A --accession 输入sra文件可以是绝对路径[/mw_shl_code]
SRA文件转换为fastq文件(仅关注RNA-Seq数据)
[mw_shl_code=applescript,true]for i in `seq 56 62`;do fastq-dump --gzip --split-3 -O ~/fastq/ -A ~/ncbi/public/sra/SRR35899${i}.sra;done[/mw_shl_code]

生信名词理解
测序reads:高通量测序平台产生的序列标签就称为reads
GC含量:https://zh.wikipedia.org/wiki/GC%E5%90%AB%E9%87%8F
质量值:每测一个碱基会有相应的质量值,质量值用于衡量测序准确度
(http://www.cnblogs.com/daimakun/p/5092312.html)
(https://en.wikipedia.org/wiki/FASTQ_format)
adapter:接头是一段短的序列已知的核酸链,用于连接序列未知的目标测序片段
index:索引序列,是一段很短的寡居核酸链,用于在多个样品混合测序时,标记不同的样品,为区分不同样本而构建(http://www.itwendao.com/article/detail/467548.html)

FastQC软件下载(CentOS 6.8)
官方参考:http://www.bioinformatics.babrah ... /fastqc/INSTALL.txt
中文参考:http://www.jianshu.com/p/6a4855023330
[mw_shl_code=applescript,true]java -version
wget http://www.bioinformatics.babrah ... /fastqc_v0.11.5.zip
unzip fastqc_v0.11.5.zip
mv FastQC/ biosoft/
cd ~/biosoft/FastQC
chmod 755 fastqc
echo 'PATH=$PATH:~/biosoft/FastQC/' >> ~/.bashrc
source ~/.bashrc
fastqc -h[/mw_shl_code]
fastqc
[mw_shl_code=applescript,true]# -o 输出目录,需自己创建目录
# --extract 是否解压输出文件,默认自动解压缩zip文件
# -f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别
# -t 同时处理的文件数目
fastqc -o fastqc_out --extract *.fastq.gz[/mw_shl_code]
fastqc质控结果
官方参考:http://www.bioinformatics.babrah ... Analysis%20Modules/
中文参考:http://www.jianshu.com/p/14fd4de54402
中文参考:http://fbb84b26.wiz03.com/share/ ... 836uQYm2iZAyh1Zwf3_

批量查看MultiQC软件下载及使用
官方网址:http://multiqc.info/docs/
中文参考:http://fbb84b26.wiz03.com/share/ ... V2GwkwL2AaxYi2fXHP7
[mw_shl_code=applescript,true]conda install -c bioconda multiqc
#进入对应文件,扫描zip文件,忽略html文件
multiqc ~/fastq/fastqc_out/*fastqc.zip --ignore *.html[/mw_shl_code]
结果查看(multiqc_report.html)

fastqc_per_base_sequence_quality_plot.png



上一篇:高通量测序与大数据分析-农学篇》动植物研究
下一篇:bedtools——基因组数据分析的瑞士军刀
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-2-20 02:20 , Processed in 0.023749 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.