搜索
查看: 3231|回复: 1

落入窠(ke)臼(jiu):GATK best practice每个步骤都是必须的吗?

[复制链接]

18

主题

56

帖子

403

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
403
发表于 2017-7-2 08:13:39 | 显示全部楼层 |阅读模式
本帖最后由 hoptop 于 2017-7-2 08:16 编辑

昨天Jimmy发了一篇文章《GATK best practice每个步骤都是必须的吗?》,主要是讨论最佳实践里面的步骤有没有必要。
其实就是比较realign和recal步骤对最后找变异的影响大不大
如下是论点:
  • 对于高质量的SNP位点来说,3中bam文件得到SNP信息差别很微弱,在可接受的范围点。
  • 但是不能忽视原始bam和重排的bam得到的变异VCF要比recal后少了近两万
  • INDEL本身对参数就比较敏感,所以不好比较
  • realign的SNP基本上都在染色体附近

Jimmy的结论:
GATK最佳时间的BQSR步骤很重要,尤其是对于临床,这个步骤据说是根据机器学习,所以Jimmy认为可以改善结果。


我和朋友(阿尔的太阳,它的公众号:生信之光,一个非常喜欢太阳的小伙子,太阳=日?)认为如果要对不同的步骤进行比较,需要用到金标准基因组(什么叫做金标准?传送门),而不是用个人的基因组测序结果,毕竟没有参考答案的比较都是耍流氓。但是Jimmy认为金标准区域并没有覆盖全部区域,存在4%左右的blind region(盲区,说了一个专业单词,感觉自己好厉害),而在临床上是要看所有区域的。
但是我和阿尔的太阳(一个自称喜欢太阳的小伙子)讨论了一下,观点仅供参考:

96%约等于100%
二代测序存在测序盲区,染色体上有许多序列重复区域,被称为difficult region(困难的区域,会蹦英语就是开心),是二代测序难以覆盖的,金标准费了好大的力气,都没能把这个地方覆盖上。所以那些地方根本不是二代测序能够分析的,96%约等于100%.
在数据分析领域有一句名言:garbage in, garbage out。如果数据本身质量就不太好,别指望能得到什么好的结果。

金标准的意义
如果金标准区域不能当作二代测序Variant calling工具比较是的参考答案,那么请给出更好的标准。不然验证答案只能靠一代测序,别人辛辛苦苦得到金标准岂不是毫无意义。

染色体中心的SNP对疾病有影响吗?
Jimmy找到的位点基本都是位于染色体中心粒附件,根据我基础的生物学知识,这些区域高度重复,基本上不参与转录,而且我对人类疾病的了解比较少(我是做植物的),不知道有哪些疾病是有这些区域引起的,欢迎高手贴一些文献和我说。

反思以下BQSR的原理
BQSR的原理是,输入一个dbsnp数据库,里面收集了常见的人类突变,GATK对它进行机器学习, 然后重新评估各个碱基的质量。进行BQSR的原因是因为当年测序质量不太好,所以需要重新评估以下,现在质量普遍很高,所以这一步很有可能导致原先正确的出错,导致原先错误的变对,这都是tradeoff(代价,会说英语就是开心)
植物的同学注意了,由于dbsnp需要已知的突变碱基数据库,我们想要也没有呀!!! 所以做植物的同学目前阶段不需要考虑用BQSR,一点都不用纠结。或者你通过严格的筛选,过滤出一些“高质量”的突变位点当作输入。其实samtools + bcftools对于植物来说够用了。

realign的必要性
至于重排的bam和原始的bam为什么数量类似,这是因为HaplotypeCaller的工作本身就包含对hot region(热区,会蹦英语真开心)重新排列,所以realign这一步可以很放心的不要了
以上观点,仅供参考,欢迎高手提出意见。

个人观点
  • 不要盲从机器学习
  • 不要轻易相信你的数据和程序
  • 不要轻易相信我说的


关于落入窠臼的梗(在Y叔的公众号biobabble)





上一篇:生信编程实战代码注释【第二题-hg19基因组序列的一些探究】
下一篇:Python和R的异同(一)
回复

使用道具 举报

0

主题

23

帖子

91

积分

注册会员

Rank: 2

积分
91
发表于 2018-7-24 15:42:27 | 显示全部楼层
感谢分享。

不过你蹦出来的英语 hot region 其实是 active regions 吧、、https://software.broadinstitute. ... article.php?id=4148
专注于 Spark 分布式快速处理基因数据。提问前请先搜索《提问的智慧》
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-20 07:23 , Processed in 0.040713 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.