搜索
查看: 6044|回复: 4

[other] fastqc结果报告分析

[复制链接]

4

主题

48

帖子

778

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
778
发表于 2017-7-17 23:03:53 | 显示全部楼层 |阅读模式
本帖最后由 渊梦无痕 于 2017-7-17 23:03 编辑

        FastQC软件的结果报告介绍
fastqc软件下载 http://www.bioinformatics.babraham.ac.uk/projects/fastqc
具体安装方法论坛有详细教程   

fastqc软件官方帮助  http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
测序的一些常识
    flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane
     lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等
     tile 每一次测序荧光扫描的最小单位
     reads 指测序的结果,1条序列一般称为1条reads
     bp base pair 碱基对,用于衡量序列长度
     双端测序 只一条序列可能比较长如500bp,我们可以两端每端各测150bp
     junction 上面说的双端测序,中间会留有200bp测不到的东西,我们叫junction
     adapter 就是测序中需要的一段特定的序列,有类似于引物的功能
     primer PCR中的引物
FastQC能够检测NGS数据的好坏,一般fastqc分析结果产生有2种类型文件,一种zip,一种html。我们直接点击html文件,在浏览器就会看到下图,这个就是qc结果报告。
图中左侧是12个部分qc结果。红色代表很差,绿色代表很好,黄色代表合格一般。

1.基本统计:分析的qc文件生成一些简单的组合统计信息。
编码:表示在此文件中找到了质量值的ASCII编码。
总序列:处理的序列总数的计数。
过滤序列:如果在Casava模式下运行的标记为要过滤的序列将从所有分析中删除。此处将报告删除的序列数。上面的总序列数不会包括这些过滤的序列,并且将在分析的其余部分中实际使用的序列数。
序列长度:提供集合中最短和最长序列的长度。如果所有序列的长度相同,则仅报告一个值。
%GC:所有序列中所有碱基的总GC值含量

2.每个位置碱基的测序质量值。
quality就是Fred值,-10*log10(p),p为测错的概率。一条reads某位置出错概率为0.01时,其quality就是20。
箱线图Box Whisker类型图。 如下:图中红线是中值,黄色框代表四分位数范围(25-75%),上下触须占10%和90%,蓝线表示平均质量。
Box whisker图中的y轴显示质量得分。分数越高,碱基质量越好。 图的背景将y轴划分为非常好的质量(绿色),质量合格的(橙色)和质量差的(红色)。 大多数平台上的呼叫质量会随着运行的进行而降低,通常看到基本在读取结束时落入橙色区域。这个碱基数量63bp和对应的上面基本统计的测序序列长度。
我们一般认为从第二个碱基开始,平均每个碱基的测序质量在四分位线在30分以上,则认为测序质量非常好。也就是我们通常称的Q30。
任一位置的下四分位数低于10或中位数低于25,警告;任一位置的下四分位数低于5或中位数低于20,出错.


3.每个tile测序的质量
保留原始序列标识符的Illumina库,这个图才显示qc分析结果中。左侧y轴这些编码是每个读取来自测序的流池块。 该图表可以查看所有基础上每个图块的质量得分,以查看是否存在与流量单元仅一部分相关联的质量损失。显示了与每个tile的平均质量的偏差。和看热图一样看,蓝色等更低的冷色其质量处于或高于该基地的平均水平,并且较热的颜色(区别于蓝色)表示tile的质量差于其他tile。在图中我们能够可以看到某些tile的质量一直很差。一个好测序应该是蓝色的。
在这个上看到tile的这种警告或错误的原因可能短暂的问题,例如通过流通池的气泡,或者它们可能是更长久的问题,例如测序仪流动池上的污迹或流动池车道内的碎屑。


4.每个序列的测序质量
一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好。如果运行中很大一部分的序列具有完整的低质量,那么这可能表明某种系统问题 - 可能只是运行的一部分(例如流池的一端)。如果输入是未记录质量得分的BAM / SAM文件,则不会显示此模块的结果。
当峰值小于27(错误率0.2%)时报警告,当峰值小于20(错误率1%)时报错


5.每个碱基测序的含量 ATCG
横轴为位置,纵轴为百分比。ATCG碱基在各个位置上的分布,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量。好的测序结构和中四条线应该平行且接近。
任一位置的A/T比例与G/C比例相差超过10%,报警告;任一位置的A/T比例与G/C比例相差超过20%,报错误。


6.对所有序列的统计GC含量
红色线是实际分布,蓝色线是理论上正态分布。
正常的随机库中,期望看到GC含量的大致正态分布,其中心峰对应于底层基因组的总GC含量。 我们不知道基因组的GC含量,所以根据观察到的数据计算模态GC含量,并用于建立参考正态分布。异常形状的分布可以指示受污染的文库或一些其他类型的偏向子集。 偏移的正态分布表示与基座位置无关的一些系统偏差。 如果存在产生偏移正态分布的系统偏差,则不会被模块标记为错误,因为它不知道您的基因组GC含量应该是什么。
偏离理论分布的reads超过15%时,报警告;偏离理论分布的reads超过30%时,报错误。


7.每个碱基N比例
测序仪器有时候不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率
正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报警告;当任意位置的N的比例超过20%,报错。


8.序列长度分布
一些高通量测序仪产生具有均匀长度的序列片段,但其他可能包含非常长的长度的读数。 即使在均匀长度的库中,一些管道将修剪序列,以从最后删除不良质量的基本碱基。图中显示分析文件中片段大小的分布。
当reads长度不一致时报警告;当有长度为0的read时报错。


9.重复的序列
统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。
横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。
当非unique的reads占总数的比例大于20%时,报警告;当非unique的reads占总数的比例大于50%时,报错。


10.反复出现的序列
如果有某个序列大量出现,就叫做over-represented。fastqc的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch)。
当发现超过总reads数0.1%的reads时报警告,当发现超过总reads数1%的reads时报错。


11.接头的含量
图本身显示了已经看到每个位置上的每个适配器序列的比例的累积百分比计数。一旦在读取中看到序列,就被视为直到读取结束存在,所以看到的百分比只会随着读取长度的增加而增加

12.k个碱基重复出现
如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-represented k-mer。Kmer模块从假定任何小的序列片段在其不同的库中不应具有位置偏差的假设开始。为什么某些Kmers在整体上会被丰富或消耗,可能有生物学原因,但是这些偏差应该同等地影响序列中的所有位置。因此,此模块测量库中每个位置的每个7-mer的数量,然后使用二项式测试来查找所有位置上均匀覆盖的显着偏差。据报道,任何具有位置偏差富集的Kmers。另外还排除了前6名最偏袒的Kmer,以显示其分布。默认的k = 5,可以用-k --kmers选项来调节,范围是2-10。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。fastqc除了列出所有over-represented k-mers,还会把前6个的per base distribution画出来。
k-mer is imbalanced with a binomial p-value <0.01.警告
k-mer is imbalanced with a binomial p-value < 10^-5.错误


总的来说这种看结果很费事。之前有人介绍过Python 平台的 multiqc 批量进行qc结果显示    http://fbb84b26.wiz03.com/share/ ... V2GwkwL2AaxYi2fXHP7       https://zhuanlan.zhihu.com/p/27646873


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:PANDA姐的转录组入门(3):了解fastq测序数据
下一篇:基于pyrad流程的GBS数据的建树分析
回复

使用道具 举报

4

主题

48

帖子

778

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
778
 楼主| 发表于 2017-7-17 23:05:22 | 显示全部楼层
排版很差   ,。。。。。。
回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-7-19 09:03:50 | 显示全部楼层
渊梦无痕 发表于 2017-7-17 23:05
排版很差   ,。。。。。。

是论坛的问题,不怪你
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

3

帖子

289

积分

中级会员

Rank: 3Rank: 3

积分
289
发表于 2017-7-22 19:13:42 | 显示全部楼层
讲的很棒,学习了,就是排版确实……
回复 支持 反对

使用道具 举报

0

主题

4

帖子

73

积分

注册会员

Rank: 2

积分
73
发表于 2017-10-2 20:38:23 | 显示全部楼层
你好版主,一共那么多指标,怎么看它匹配的好还是坏?比如我有一个数据,经过fastqc后7绿4红1橙。如果不好的话我该用什么方法去切掉不合适的bp呢?Thanks in advance.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 00:16 , Processed in 0.031383 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.