搜索
查看: 2147|回复: 0

[mRNA-seq] 转录组入门 ( 3 ) :了解fastq测序数据

[复制链接]

1

主题

2

帖子

136

积分

注册会员

Rank: 2

积分
136
发表于 2017-7-28 11:23:55 | 显示全部楼层 |阅读模式
本帖最后由 Fang 于 2017-7-28 12:09 编辑

前几天一直在装Centos7 和各种软件,没来得及整理笔记,以后有机会再补上,现在得加快跟上前辈们的进度。


需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量!
作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
一、用前面安装好的sratoolkit 把 sra 文件转换为fastq格式的测序文件 使用fastq-dump 命令(吐槽下,转换超级慢,网上说有其他工具:sam-dump
建立一个SRR_fastqc.sh 文本,输入
for i in `seq 56 62`
do
    fastq-dump --gzip --split-3 -O /home/fang/exercise/SRRdata/srr_fastqc_result -A SRR35899${i}.sra
done

保存后在sra数据所在目录运行:
bash SRR_fastqc.sh  #超级慢,不知道其他人是不是这样。
转换为之后文件列表:
[fang@localhost srr_fastqc_result]$ ls
SRR3589956.sra_1.fastq.gz  SRR3589959.sra_2.fastq.gz
SRR3589956.sra_2.fastq.gz  SRR3589960.sra_1.fastq.gz
SRR3589957.sra_1.fastq.gz  SRR3589960.sra_2.fastq.gz
SRR3589957.sra_2.fastq.gz  SRR3589961.sra_1.fastq.gz
SRR3589958.sra_1.fastq.gz  SRR3589961.sra_2.fastq.gz
SRR3589958.sra_2.fastq.gz  SRR3589962.sra_1.fastq.gz
SRR3589959.sra_1.fastq.gz  SRR3589962.sra_2.fastq.gz

二、FASTQ文件格式
参考http://blog.csdn.net/shmilyringpull/article/details/8000661
FASTQ文件中每个序列通常有四行:
  • 序列标识以及相关的描述信息,以‘@’开头;
  • 第二行是序列
  • 第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
  • 第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

FASTQ文件后缀

没有特别的规定,通常使用.fq, .fastq, .txt等。

三、FastQC 质量控制
我们用 fastqc  分析数据的质量
参考:https://www.plob.org/article/5987.html
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
-o 用来指定输出文件的所在目录,注意是不能自动新建目录的。输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩;
-f 用来强制指定输入文件格式,默认会自动检测;
-c 用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个
contaminant文件里搜索。contaminant文件的格式是"Name\tSequences",#开头的行是注释。加上 -q 会进入沉默模式,即不出现下面的提示:
Started analysis of target.fq
Approx 5% complete for target.fq
Approx 10% complete for target.fq
批量显示QC结果的利器
参考http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ1iRTvV2GwkwL2AaxYi2fXHP7
MultiQC
homepage: http://multiqc.info
功能:把多个测序结果的qc结果整合成一个报告。支持fastqc、trimmomatic、bowtie、STAR等多种软件结果的整合。
安装MultiQC
conda install -c bioconda multiqc   # install multiqc

先获得全部QC(把结果输出到SRR_fastqc_data
ls *gz | while read id; do fastqc -o '/home/fang/exercise/SRRdata/srr_fastqc_result/SRR_fastqc_data'  -t 4 $id; done
全部的QC结果

批量显示QC结果
multiqc *fastqc.zip -o '/home/fang/exercise/SRRdata/srr_fastqc_result/SRR_fastqc_data/multiqc_data'  --pdf --export

运行后生成了3个文件




multiqc_plots 里面有pdf, png,svg格式的文件。
打开html文件显示汇总的质控信息

本人生信菜鸟一枚,第一次发帖,有错误之处,望大家批评指正,谢谢。
以上笔记是根据HOPTOP http://www.biotrainee.com/thread-1829-1-1.html;青山屋主http://fbb84b26.wiz03.com/share/ ... S3LE4tM2rg0A-1qRcP-;PANDA姐  https://mp.weixin.qq.com/s/kRSIHuXtgZs6HWiPwYnSmA等前辈的笔记撰写的,在此感谢前辈的分享。
图片没排好,可以看我的有道云笔记
http://note.youdao.com/noteshare ... A60BB488C907354DB1B
E:/YoudaoNote/15527598323@163.com/61612f436ed346ba9fa25b072c9c062a/clipboard.png













本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:转录组入门(1):使用win10内置Linux的作业
下一篇:【高薪招聘】生物信息科学家/工程师
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-14 22:24 , Processed in 0.029701 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.