搜索
查看: 2131|回复: 1

[mRNA-seq] 转录组作业(三):来自零基础的小白

[复制链接]

5

主题

19

帖子

209

积分

中级会员

Rank: 3Rank: 3

积分
209
发表于 2017-8-9 15:55:04 | 显示全部楼层 |阅读模式
本帖最后由 空格键在末尾 于 2017-8-9 16:30 编辑

一、任务回顾
转录组入门(3):了解fastq测序数据
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量!
作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
二、转换格式(sra→fastq)
1.确保自己转录组(一)作业提到的软件安装完成。之前我是用conda命令安装的,可以在终端再输入:
[AppleScript] 纯文本查看 复制代码
conda list
检查一下软件,比如名称和版本号。
我们选择fastq-dump进入浏览相关内容:
我们可以看到命令的一般格式和常用参数,另外上述页面最下端还列举了使用命令过程中可能遇到的问题及其解决方法 ,如图:
之前不知道怎么查看自己本地的参数,其实是没有这个意识,后面读了青山屋主的帖子才知道这个。
下面我们看一下本地的参数介绍,顺便了解一下重要的参数,在终端输入:
[AppleScript] 纯文本查看 复制代码
fastq-dump -h
如图是几个重要的参数:
参数详细介绍,PANDA姐的帖子写的很棒,强烈推荐。
3.我的下载命令如下:
[AppleScript] 纯文本查看 复制代码
for ((i=56;i<=62;i++))
do
fastq-dump --gzip --split-3 -A ~/ncbi/public/sra/SRR35899$i.sra -O ~/fastq/
done
参数说明:
1.gzip 是输出文件压缩成gzip格式
2.-O 数据输出位置,我的是fastq
3.-A 数据来源位置,我的是ncbi/public/sra
三、质量分析
1.fastq格式简单介绍:先来看一个例子 ,下面有简单说明 :
[AppleScript] 纯文本查看 复制代码
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
从上述例子,我们可以看出fastq文件包含4行信息:
第一行序列标识以及相关的描述信息,以‘@’开头;
第二行序列信息
第三行以‘+’开头,后面是序列标示符、描述信息(二者与第一行标识符/信息相同),或者什么也不加
第四行质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。(以ASCII字符表示,下图是相关参考图)
ASCII参考图,相关介绍请点击下面的参考链接1进行了解。
参考链接1:https://baike.baidu.com/item/fastQ%E6%A0%BC%E5%BC%8F/2685966?fr=aladdin (百度百科,建议看看ASCII说明)
参考链接2:http://boyun.sh.cn/bio/?p=1901 (fastq格式详解,博耘生物)
参考链接3:http://www.biotrainee.com/thread-42-1-1.html(团长写的生信人必会数据格式持续收集帖子,详细见何婷版主等人的回复)

2.分析过程
(1)命令说明
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
①-o 用来指定输出文件的目录,fastq是不能新建目录的。输出的结果是.zip文件,默认自动解压缩,如果加上--noextract参数则不解压缩。
②-f 用来强制指定输入文件格式,默认会自动检测。
③-c用来指定一个contaminant文件,fastqc会把overrepresented sequences去这个contaminant文件里搜索。contaminant文件的格式是"Name\tSequences",#开头的行是注释。
④-q 会进入沉默模式,即不出现下面的提示:
Started analysis of target.fq
Approx 5% complete for target.fq
Approx 10% complete for target.fq
(2)我自己第一次用的命令如下,由于没有加-q,会看见5%的进度条
[AppleScript] 纯文本查看 复制代码
mkdir -p ~/ncbi/data/QC #创建输出结果目录
cd ~/fastq/ #进入由sra转换为fastq格式的文件,即转换格式命令的数据输出位置
fastqc -o ~/ncbi/data/QC *.fastq.gz #运行fastqc
跑完命令以后会在输出结果目录里面获得压缩包和HTML文件(每个fastq文件对应一个压缩包和一个HTML文件)我们可以直接去输出结果目录查看,或者输入以下命令查看:
[AppleScript] 纯文本查看 复制代码
cd ~/ncbi/data/QC/ #进入输出结果目录
ls #列出结果
如图所示(因为我还用了MultiQC,所以最下面多了两个文件,后面会做说明):
3.结果查看
(1)单一结果:我们在结果输出目录打开对应序号的HTML文件,结果会在浏览器显示:
左边是总结,点击左边的,会自动调到对应的板块,结果分为绿色的"PASS",黄色的"WARN"和红色的"FAIL"。“You should treat the summary evaluations therefore as pointers to where you should concentrate your attention and understand why your library may not look random and diverse. ”
单一结果的各个板块的意义建议先看参考链接1吧,第一次做这个,仔细看看官方的说明还是有必要的,结合官方说明看自己的结果。参考链接2和参考链接3是一些入门基础,小白还是要多看看。
参考链接2:https://zhuanlan.zhihu.com/p/20731723 (孟浩巍,看了官方说明,再看看这个挺棒的)
参考链接3:https://zhuanlan.zhihu.com/p/24608131?group_id=871001548837228544 (青山屋主,入门基础,小白多看看 )
(2)批量结果:
因为我们获得了几组数据,如果只是看单一数据,用上述方法即可,很多组数据时,我们可以采用批量显示的方法,这样能看到不同数据之间的差别,而且效率提高很多。要进行批量我们用conda先安装Multiqc软件:
[AppleScript] 纯文本查看 复制代码
conda install -c bioconda multiqc #安装软件
multiqc --help #查看帮助
cd ~/ncbi/data/QC/ #进入我们结果输出目录
multiqc *fastqc.zip #运行multiqc
2.分析结果显示的图片最下面两个,也可以使用ls命令进行查看。我们获得文件后,和单一结果说明的方法一样,选择打开新生成的html文件,浏览器会显示结果运行完成即可得到两个文件,multiqc_data和multiqc_report.html。如图:
可以看到该界面包含三个板块,左边是导航信息,中间是报告信息,右边是工具栏。批量显示结果没有Per tile sequence quality和Kmer Content这两个板块,可以单独去了解一下。批量显示结果各个板块标题下面都有FastQC-help,点击即可查看相应的意义。
参考链接1:https://zhuanlan.zhihu.com/p/24608131?group_id=871001548837228544 (青山屋主,入门基础,小白必看)
参考链接2:http://multiqc.info/ (官方主页,有问题可以在线咨询,另外还有模板)


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:转录组作业(二):来自零基础的小白
下一篇:转录组入门作业——1
My heart is in the work.
回复

使用道具 举报

5

主题

19

帖子

209

积分

中级会员

Rank: 3Rank: 3

积分
209
 楼主| 发表于 2017-8-9 16:37:48 | 显示全部楼层
本帖最后由 空格键在末尾 于 2017-8-9 16:39 编辑

这一章的最大的收获应该就是Markdown的使用吧,给上一个推荐链接,介绍了很多Markdown:
http://www.williamlong.info/archives/4319.html
进入链接,选择自己感兴趣的,我试了一下里面的Cmd Markdown,里面还有语法教程。
另外,就是又温习了一下conda命令。
在转换格式的时候,把自己的文件名称也给一起改了,把路径也一起加到名称了,下来我会自己找原因。
My heart is in the work.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-14 22:11 , Processed in 0.063475 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.