搜索
查看: 10312|回复: 1

[WGBS] WGBS比对工具比较——bismark和bsmap

[复制链接]

10

主题

52

帖子

559

积分

版主

Rank: 7Rank: 7Rank: 7

积分
559
QQ
发表于 2017-5-18 22:30:25 | 显示全部楼层 |阅读模式
前言:最近在学习whole genome bisulfite sequencing(WGBS)的分析,之前楼主已经讲过其实NGS数据分析无非就是质控、比对和下游分析了。WGBS的数据亦是如此,也需要质控过滤、比对以及后面的甲基化分析。为什么我要单独把比对拿出来呢?因为WGBS的比对跟其他NGS数据的比对有所不同,另外目前关于这些比对工具的内容也不是太多。
比对之前要进行质控过滤,这一步也比较重要,目前用的较多的软件是trim_galore,论坛其他小伙伴有介绍,请移步查看:http://www.biotrainee.com/thread-64-1-1.html
之前说WGBS的比对跟其他的NGS比对不同,这得从WGBS的原理说起。如下图所示(图片来源Expert Rev Mol Diagn. 2015 May; 15(5): 647–664.),最重要的一点就是亚硫酸盐处理,经过处理之后,未甲基化的C变成U,甲基化的C不变。经过PCR扩增之后,所有甲基化的C不受影响,但是未甲基化的C变成T,另一条链就变成A,由于本来DNA就有两条链,所以最终结果就是产生4条不同的链。另一方面大量的C变成T降低了序列的复杂度。目前的WGBS的方法主要就是测的原始的亚硫酸盐处理的链(俗称directional),这也会影响比对的方法。

目前用于WGBS的比对的方法主要有两大类,一类是以bismark为代表的“three letter”的方法,另一类是以bsmap为代表的“wild card”的方法。
Bismark:bismark以bowtie为基础。如下图所示,将所有参考基因组和read上的C变成T(另一条链G变成A),再来做比对,因为所有序列只剩下3个碱基故名“three letter”。

Bsmap:bsmap则以SOAP算法为基础。它不转换基因组序列,而是允许序列中的C和T比对到基因组上的C,但是C不能比对到T(如图示)。另外通过HASH table seeding的方法也使比对过程更快速。
Bismark和bsmap比较:bismark使用3个碱基比对,降低了序列复杂度和特异性,可能导致比对率的降低,但是unique map的序列更准确。bsmap使用seed提高了比对速度,允许C和T的比对能提高比对效率,尤其是在一些repeat区域,但是可能导致高甲基化read的比对率高于低甲基化的read(更多的T)从而引入偏差,也有文献报道这种bias影响不大。至于速度等方面,虽然文献中已经有所提及,但是由于笔者使用的版本与文献中已经有很大不同,笔者在使用过程中也没能验证两者速度,因而暂时不做评论,等有了比较确切结果后再来补充。
比对工具的选择:目前来看,bismark和bsmap仍然是使用较多的两个工具,各自也有自己的粉丝了。究竟如何选择,笔者暂时不想下一个结论,这其实应该根据数据质量,对速度的要求,对比对结果的预期,以及下游分析及软件的兼容性等来考虑。还有一些其他工具也各有优劣,例如BS Seeker 会给出更多信息用于下游分析,WALT拥有更快的比对速度等。大家可以尝试使用来挑选合适的工具。
代码演示:代码只是列出了我的一些演示,还有很多参数如gap、length等需要大家自己去探索体会。
[Shell] 纯文本查看 复制代码
###bismark
##准备基因组(转换)
bismark_genome_preparation --path_to_bowtie bowtie_path --verbose genome_path
##双端测序比对
bismark --bowtie2 -p 4 --temp_dir temp_dir -o output_dir genome_path -1 R1.fq -2 R2.fq 2> bismark.log 
#-p 核心数 --temp_dir 临时文件存储目录

###bsmap
##双端测序比对
bsmap -a R1.fq -b R2.fq -p 8 -d reference_genome -o output_file -v 0.1 2>bsmap.log  
#-p 核心数 -d 基因组 -v 允许的错配


参考文献:
1.        Krueger F, Andrews SR. Bismark: a flexible aligner and methylation caller for Bisulfite-Seq applications. Bioinformatics. 2011;27(11):1571-2.
2.        Xi Y, Li W. BSMAP: whole genome bisulfite sequence MAPping program. BMC Bioinformatics. 2009;10:232.

3.        Chatterjee A, Stockwell PA, Rodger EJ, Morison IM. Comparison of alignment software for genome-wide bisulphite sequence data. Nucleic Acids Res. 2012;40(10):e79.

4.        Kunde-Ramamoorthy G, Coarfa C, Laritsky E, Kessler NJ, Harris RA, Xu M, et al. Comparison and quantitative verification of mapping algorithms for whole-genome bisulfite sequencing. Nucleic Acids Res. 2014;42(6):e43.


作者:生信技能树-旭日早升
转载请说明来源:生信技能树-biotrainee.com


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:python一张图看懂python程序框架
下一篇:史上最全workshop-关于NGS数据处理的-所有ppt可以下载
回复

使用道具 举报

3

主题

9

帖子

148

积分

注册会员

Rank: 2

积分
148
发表于 2018-3-13 09:59:20 | 显示全部楼层
请教个问题。未被甲基化的C互补链的G,在PCR时又互补生成C了。这个是如何处理的?谢谢。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-19 08:27 , Processed in 0.037385 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.