搜索
查看: 2239|回复: 2

【直播】我的基因组 41:按照不同的lane来call variation

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-2-4 22:42:07 | 显示全部楼层 |阅读模式
【直播】我的基因组 41:按照不同的lane来call variation

我现在已经有了5条lane的测序数据合并后的bam比对文件,也对这个文件做了过滤和找变异。但是不能忽略的是这些测序数据的确是来自于不同的lane,我们有必要回过头去检查一下这些lane的样本都是我本人的吗?有没有可能公司做错了呢?而按照不同的lane来call variation后得到的变异就可以相互比较了。



首先要把bam文件根据lane的标记来拆开,前面我们提到了把bam文件根据染色体来拆开的软件是bamtools,它还可以指定 -tag RG 来把这个bam文件按照原来的测序上样品的lane给分离开(因为本身测序文件就是多个,比对后merge的bam)

命令如下:
~/biosoft/bamtools/bamtools/bin/bamtools split -in ~/data/project/myGenome/bamFiles/P_jmzeng.final.bam -tag RG
从输出的bam文件的大小,就知道每条lane的上样量不一致。


对上面不同lane的bam文件,统一进行过滤掉低质量比对reads,multiple mapped reads和PCR duplication的reads情况。可以看到它们用同样的过滤参数,过滤掉的reads差不多,说明这些lane还是比较稳定。




然后对它们批量找variation,我们还是使用最方便的bcftools和freebayes吧:
软件用法见:


软件的下载和用法,都在前面的帖子里面已经详细说明了,就不赘述啦!但是有很多朋友关心过这个过程耗费的时间,所以我刻意在脚本里面记录了一下时间。

【直播】我的基因组(四):计算资源的准备 (所有软件安装教程)

输入的bam文件大小看上面的截图,用freebayes来call variation耗时如下(单位是秒):



用bcftools来call variation耗时如下(我只调用了一个线程):


似乎bcftools会更慢一些,而且很明显,call variation这一个步骤的耗时主要取决于你的bam文件的大小。

文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:【直播】我的基因组 40:不同lane的bam文件的比较
下一篇:生信编程直播第11题:区分染色体分别运行scalpel软件!(shell)
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

0

主题

1

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2017-2-5 13:18:06 | 显示全部楼层
感觉用分lane来call变异没有什么意义吧,bcftools和freebays都是对测序深度很敏感的,分lane的话就稀释了深度,这样会有一些位点由于深度过低而没有检测出来的情况发生。
回复 支持 反对

使用道具 举报

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
 楼主| 发表于 2017-2-7 19:07:31 | 显示全部楼层
人心若古 发表于 2017-2-5 13:18
感觉用分lane来call变异没有什么意义吧,bcftools和freebays都是对测序深度很敏感的,分lane的话就稀释了深 ...

从统计学上讲,Jimmy只是想排除outline,还是有统计意义的。
当然我同意你的观点,由于测序深度变浅,会遗漏和不准确。
你说的是误差,Jimmy 排除的是人为的失误吧
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 00:10 , Processed in 0.029559 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.