搜索
查看: 9954|回复: 6

基因组测序与生信分析流程准确度评价全攻略

[复制链接]

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2017-4-27 22:59:29 | 显示全部楼层 |阅读模式
    大家好,我是生信菜鸟阿尔的太阳,作为生信技能树的忠实粉丝,我想曾健明师兄“我的基因组”直播大家一定不陌生吧,在跟随学习的过程中,我发现,测序的实验流程相对来说标准化很多,有相应的protocol和试剂盒, 但是下机的生信分析流程就很难标准化,仅仅fastq-bam-vcf 这一上游分析,每一个步骤就有很多种变化存在, 仅仅是基因组germline的 短突变【snvs & indels】 的检出这一条常见流程,中间步骤就可以有非常多的选择,多到让人眼花,我随便选了几个常用的,终于搞好了步骤/软件/参数,测试成功,CALL 出VCF了 。
    但是这时,我的心里产生了一个大大的问号,也可能是很多小伙伴都想问的
    我的这条流程,的准确度,究竟怎么样?
    有人说,哈,做实验验证啊,Sanger测序是金标准。
    试问WGS你怎么验证? 涵盖人体全基因组有约30亿bp , 350W + snvs , 50W + indels , 还存在相当面积的MNPs [相邻连续突变]。 做实验验证,咋做?
    为了寻找答案,我花了半天时间,百度加GOOGLE 一顿狂搜,终于找到了这个。
    瓶中基因组
   
    瓶中基因组计划-GIABNA12878[大家是不是好像听过这个名字]
    瓶中基因组计划旨在构建已知答案的高可信度标准参考基因组。
    由NIST「美国国家标准与技术研究院」领导,可见还是很权威的。
   
   大家可以到官网查看
    文章在2014年发了nature biotech
    当时的版本是v2.16 但后来一直在不断完善和更新,现在最新的是版本v3.3.2
    NA12878原属于千人基因组计划,为美国犹他地区血统的一名女性捐献的DNA样本,
    已经过多种不同测序技术反复重复测序,是目前公开已知研究最透彻的人类2倍体基因组。

    除了GIAB Illumina公司也构建了类似的NA12878高可信度参考突变集合,称为“白金基因组”,
   
    文章20172月份刚发,大家感兴趣可以看一下
    这两个是目前可信度最高,覆盖范围最广的参考突变集合,在多种评测中作为准确度的评价标准。

    包括测序实验流程和生物信息分析流程。

    那么这个高可信度突变集合究竟是怎么做出来的呢??

   
    两个项目的基本原理是相似的
    简单说就是几个不同的实验室综合采用多种测序技术和高深度,把NA12878的DNA忘死里测测测,测到海枯石烂,
    GIAB的总深度是861X,然后把突变集合到一起,把不同技术和数据的最大程度的交集取出来,
    这个交集就包括了VCF和BED 。
    白金基因组则是综合考虑了家系,做出了更大面积和数量的高可信度参考集合。

    NA12878究竟被反复测了所少次?
   

    SRA 数据库里面的 RUN 是2000多个[同一个人的DNA!] 总深度估计在上千倍了,这管DNA真是测到海枯石烂了
    而且使用了目前几乎所有的目前主流和非主流的二代和三代测序技术
    感兴趣的小伙伴可以下载一个下来玩一下,数据真的很多!各种深度各种读长的都有,
    不过最多的还是 ILLUMINAPE 100 HISEQ2000/HISEQ2500

    NA12878在我们身边的应用?
   1.华大基因风云际会挑战赛 标准数据与标准参考高可信度突变集合
    2.华大基因BGI-SEQ500测序仪性能评价测试

   
   
  
   3.流程SPEEDSEQ 的评价文章也是用的NA12878

    也就是说 对于做BENCHMARK 来说 现在已经逐渐抛弃了 模拟的数据
    而是使用这个已经被探测到 绝大部分标准答案的  “真的数据”

   在这里大家可能想问NA12878高可信度突变集合覆盖面究竟有多大?
   于是我对其vcf和BED文件进行了统计
   1.vcf的统计
  2.BED文件的统计

    另附上低版本GIAB VCF统计情况

   

    可见
    1.两个高度可信突变集合的覆盖范围和数量都是很大的,
    最新版本的高可信度BED文件已经覆盖了1-22号染色体84%-90%的范围。
    具有高达370W-400W的总突变数量,这个范围和数量还是很惊人的。

    2.GIAB的高度可信突变集合,从v2.19-v3.3.2 提高的还是不少,增加了60W


    对于流程准确度评价的问题,GIAB目前最为推荐的是RTGtools rtg vcfeval hap.py
    不同流程[包括aligner 和 caller ]call 出来的vcf去比较是一件很麻烦的事情.
    同一个突变有不同的表述形式。 因为在WGS的数据中 MNPs [相邻连续突变]是很常见的 。
    自己写脚本没有多少人能轻松搞定,很难标准化突变。  
    所以直接用这个软件。
    其他的软件也有如vcflib去做标准化 ,主要是拆分MNPs。但是效果不好 。
    RTG tools 在比较的时候会自动把不同的表述形式统一化,从而输出结果。
   
   

    不同流程的VCF评价的复杂性,可以参考上面两这图片,
    可见不同比对软件和不同的CALLER 对同一个突变形式是很难有一致的表述形式的。
    流程评价的指标常见的几个

   


    主要是假阳性和假阴性。
    PRECISION 准确度:指找出来的突变中的真阳性有多少
    RECALL 又叫敏感度:指总突变集合有多少可以被找出来
    还有一个值是F-MEASURE 是指 PR 和 RE 的加权值


   

  这里是我算出来的一个结果
  我的分析流程 【BWA MEM + SAMBAMBA + PICARD + GATK HC 3.6】 call 出突变的敏感度和准确度分别是99.81% 和 99.27%[仅统计SNP]
  对于一个40X左右的WGS数据

  故事到这里还没完,在继续搜索的过程中,我看到了一个这个东西


  

    20161215日,美国FDA建立了一个社区主导了一个项目 PrecisionFDAhttps://precision.fda.gov),
   用于测试和评估NGS实  验,这是FDA为推动测序数据分析质量控制标准化所做的努力

   参与的机构和公司大咖云集:美国科学和技术研究院(NIST), 国立卫生研究院(NIH) Broad研究所,斯坦福大学,贝勒医学院,埃默里大学遗传学实验室,Human Longevity测序实验室,美国疾病预防控制中心(CDC),白宫科学技术政策办公室 (OSTP),美国心脏协会(AHA)。企业有:Illumina,罗氏,23andMeCounsylGeneDx,英特尔,NateraPersonalis, SeraCare, DNAnexus等等。

  目的是通过提供一个安全、开放、透明社区,使研究人员和测试开发人员可以探索NGS方法,推动创新以制定必要的标准。

  需要指出的是!

  这个社区使用的参考数据就是NA12878 以及GIAB 的高可信度突变集合,不过目前使用的是 v2.19 不是最新的 v3.3.2
  另外 ,权威评价软件就是前面所提到的 RTG tools vcfeval
  主要评价指标也是 前面提到的

  我就进去找一下,目前在这个社区的评价中,目前全世界最强悍的流程究竟是谁,

  

  我不断看到了一个熟悉的名字
  没错  这就是,GeneDock公司的合作伙伴,Sentieon
  聚到科技的云平台就是使用的这个流程,看数据果然不是浪得虚名,各方面都非常出色
  开源软件表现最好的是GATK
  这个社区的评价标准如下
  可以看到主要采用的是NA12878【HG001】也使用了HG002 这个也是标准参考材料,但是还不够完善

  

  以上是PFDA 的评价流程


  OK 最后画一张图,说明做benchmark 的流程

  

  GIAB 的FTP 数据也非常丰富

  不仅仅是NA12878  

  还存在一个家系的数据

  欢迎大家自行探索

  

  PFDA 的结果也欢迎大家关注

  

  不足之处大家多多批评指正 谢谢 !

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:表观遗传学测序数据QC工具-NGS-QC Generator
下一篇:两个shiny工具文章推荐
回复

使用道具 举报

0

主题

3

帖子

111

积分

注册会员

Rank: 2

积分
111
发表于 2017-6-13 14:44:03 | 显示全部楼层
感謝樓主的精彩分享
回复 支持 反对

使用道具 举报

2

主题

41

帖子

387

积分

中级会员

Rank: 3Rank: 3

积分
387
发表于 2017-6-15 22:53:42 | 显示全部楼层
感谢分享!
一脸懵逼状。。。
等后面入门了再来认真研究~
回复 支持 反对

使用道具 举报

2

主题

21

帖子

241

积分

中级会员

Rank: 3Rank: 3

积分
241
发表于 2017-8-14 14:55:44 | 显示全部楼层
本帖最后由 AdaWon 于 2017-8-14 14:56 编辑

it's very detailed and help me a lot, THANKS^_^
回复 支持 反对

使用道具 举报

2

主题

41

帖子

387

积分

中级会员

Rank: 3Rank: 3

积分
387
发表于 2017-8-16 00:47:16 | 显示全部楼层
感谢楼主分享,很实用
回复 支持 反对

使用道具 举报

10

主题

52

帖子

559

积分

版主

Rank: 7Rank: 7Rank: 7

积分
559
QQ
发表于 2018-5-2 15:34:47 | 显示全部楼层
非常棒的介绍。
回复 支持 反对

使用道具 举报

0

主题

2

帖子

203

积分

中级会员

Rank: 3Rank: 3

积分
203
发表于 2018-5-4 17:01:51 | 显示全部楼层
做出来的结果假阳性和假阴性居高不下,好纠结
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-20 19:24 , Processed in 0.037948 second(s), 31 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.