搜索
查看: 5448|回复: 2

[MeDIP-seq] 测序数据fq文件质控及fastqc/fastx-toolkit相关问题

[复制链接]

2

主题

3

帖子

152

积分

注册会员

Rank: 2

积分
152
发表于 2017-5-3 21:34:38 | 显示全部楼层 |阅读模式
本帖最后由 hdshu 于 2017-5-3 21:34 编辑

对于我这种刚入门的新手来说,很多数据处理上都有疑问,因此,在此发帖分享自己学习历程,希望大家不吝赐教。
首先,数据的quality control 是一个最基本的问题。我刚拿到数据时,一脸懵逼啊!完全不知道接下来要干什么。后来,开始在网上学习,网上的pipeline 基本上对于quality control 都是三板斧:
1.cutadapt
2.removeN
3.
[Shell] 纯文本查看 复制代码
fastq_quality_filter -q 20 -p 70 -i treat.fq -o treat.clean.fq  #-Q 33

不过后来发现,前两步骤一般来说测序公司都帮忙处理好了,只有第三个步骤可能需要自己运行试试。
后来,学会使用fastqc了,那会才开始,还是用的windows版,还好也挺简单,只需要点击file-open-选择fq文件就好了。
fastqc结果也很清晰,详细说明可以参照这篇博客[转载]fastqc结果解释_augsdihh_新浪博客 http://blog.sina.com.cn/s/blog_8808cae20102uygl.html

下面说一下我的疑问:在Per base sequence quality这一项里面:这一部分主要显示的是Reads的每个碱基的测序质量的统计。看以明显看到大部分Reads前面几bp以及越到后面质量越低,这是测序的问题,不可避免。对于Per base sequence quality 这一项,网上的说法是每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好,也有的认为看红线,红线均值,在30分以上就是蛮好的。可以明显看到我的这个右端测序结果数据质量明显没有左端的结果好。如果这张图显示fail或者warn,那该如何处理呢?可以使用fastx-toolkit工具(http://hannonlab.cshl.edu/fastx_toolkit/commandline.html)里面的fastx_trimmer,可以将reads的前面或后面移除一定的碱基数。
我的疑问是:1:在进行trim的时候取多少bp不会影响Reads的比对?还是说根据统计结果不管多少bp直接把低质量的全部trim掉?
       2: 双端测序的质量值是不一样的,在对Reads进行trim的时候需要保持R1R2 reads长度一样么?
       3: 用fastq_quality_filter时候与trim冲突么?或者说重复么?因为大部分reads质量把后面的几bp trim之后质量就很高了。
         这两部处理的先后步骤有要求么?
         我看群主的github流程是2步都做了。


file:///C:\Users\shuhaidong\AppData\Roaming\Tencent\Users\714808528\QQ\WinTemp\RichOle\DP]2(GWZ`VA4P}D`AFV0S4J.png

file:///C:\Users\shuhaidong\AppData\Roaming\Tencent\Users\714808528\QQ\WinTemp\RichOle\DP]2(GWZ`VA4P}D`AFV0S4J.png


treat.1.fq

treat.1.fq

trat.2.fq

trat.2.fq



上一篇:找一个乳腺癌里面表达上调的基因,然后看看其它所有基因
下一篇:用一系列坐标文件来过滤指定的坐标文件
回复

使用道具 举报

2

主题

3

帖子

152

积分

注册会员

Rank: 2

积分
152
 楼主| 发表于 2017-5-3 21:37:09 | 显示全部楼层
图片是我自己的质控图,分别是R1和R2的,进行trim的时候很纠结。
回复 支持 反对

使用道具 举报

5

主题

37

帖子

485

积分

中级会员

Rank: 3Rank: 3

积分
485
发表于 2017-5-8 18:11:31 | 显示全部楼层
看了你的问题,说一下我的理解。
1,trim 的 bp 数是根据设定的 trim 质量阈值来的,如果碱基质量值低于这个阈值就切掉,但是如果切完之后发现这条序列总长度已经低于设定的最短长度,那么整条 reads 被丢弃。
2,对 reads 进行 trim 不需要保持 R1 和 R2 相同长度,各自按照 trim 标准进行修剪。如果 R1 和R2 任何一条在经过 trim 之后被丢弃,在后面的双末端比对模式下,这个两条 reads 都不会使用。
3,两步做任何其中一步就可以,当然都做也没多少影响。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-17 09:04 , Processed in 0.032379 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.