搜索
查看: 1579|回复: 0

Vmine新算法可提高基因组结构变异的检测能力

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-11-14 10:35:54 | 显示全部楼层 |阅读模式
北大青年千人Bioinformatics刊文:SVmine新算法可提高基因组结构变异的检测能力
原创 2017-11-07 wei 生信者言

结构变异(structural variation)是人类基因组中一类重要的变异形式。

虽然目前已经开发出来很多的SV检测算法,但他们的检测能力有限。主要采用paired-end mapping (PEM) 策略和split read mapping(SRM)策略,Read depth methods 也被广泛应用,但它只能检测拷贝数变异(copy number variations ,CNVs),而不能检测copy neutral variants。

近日,北京大学数学科学学院席瑞斌课题组在Bioinformatics发表一篇题为:SVmine improves structural variation detection by integrative mining of predictions from mul- tiple algorithms [PMID:29036467]的文章,提出了一个新的SV检测算法。

席瑞斌研究员,青年千人

北京大学数学科学学院博导教授,主要研究领域为生物信息学,包括高通量测序数据的新统计计算模型、算法及软件;高维统计及大数据方面的新统计理论及方法;课题组已在PNAS, Nature Genetics, Nature, Genome Research, Cell等顶级杂志发表论文十余篇。

为了提高SV检测的准确性,通常的做法是同时使用多种算法,然后选择同时被两种或两种以上的算法预测到的结果。

作者发现,使用这种策略的时候,也许是因为算法太严格,overlap很少。而且,大多数SV算法的策略都是一样的,很容易出现假阳性;特别是对于breakpoint的处理,结果很差。准确的breakpoint信息对于随后的功能评估非常重要。

所以,作者开发了一个称为SVmine的算法工具,进一步挖掘从多个算法工具得来的SV检测结果,提高检测的灵敏度,特异性,更好的处理breakpoint信息。


SVmine 地址:
https://github.com/xyc0813/SVmine

SVmine算法通过两个步骤来评价和改进SV的预测结果。

第一步是进行质量评估和过滤低质量SV预测结果,这一步是重建断点附近供体基因组中的潜在真基因组序列(称之为haplotypes,单倍型)。对已经被预测为SV的序列附近的短reads,使用一个隐马尔可夫模型调整算法来重建序列,使得SVmine能够准确预测,有效地去除假阳性。

第二步是改进高质量SV断点的位置。通过进行精准的“三明治”调整软截断reads,模拟实验表明,SVmine与其他算法相比,表现更优。


Fig1:A.SVmine软件的流程示意图;B.候选单倍型的产生;C.三明治重组流程。

SVmine有两种输入方式:BAM格式的pair-end reads或者其他算法预测得到的SV。除单一文库的数据外,SVmine也可以使用多个不同长度插入片段文库混合的数据。

首先,将从不同算法得到的SV进行合并去重,以节省计算时间。通过各自断点距离小于350bp进行聚类,对于聚类得到的簇,随机选择其中的一个作为代表,进一步优化。SVmine提取候选断点上游和下游的参考序列,以及附近的SNVs / Indels,产生可能的供体基因组的单倍型。两个区域中的soft-clipped reads与一端未配对的paired-end reads ,作为不一致的结果将会被收集起来,通过HMM比对算法对这些单倍型进行重新排列。为了避免重复区域的假阳性,需要使所有不一致reads 和 soft-clipped reads 都能够做到唯一map。

SVmine计算这些单倍型的可能性是通过对这些reads进行重排。如果没有SV的单倍型的可能性更大,SVmine则将这个SV视为假阳性,并进行过滤。其余的SV,将进一步分析,通过 sandwich调整算法精确估计其断点位置。

Fig. 2. (A) The IGV view of BWA alignments of NA12878 in the region of chromosome Y 13349593-1334972. The purple reads indicate that their mates are aligned to chromo- some 1. (B) The purple reads in (A) are mapped to chromosome 1 after introducing an insertion.

文章后半部分,通过两个真实数据集对SVmine与其他算法进行了比较。在模拟研究和结直肠癌数据集(包含8对肿瘤/正常组织的测序数据,PE101bp,coverage都是30X左右)中都对个体NA12878进行了分析。


(一)模拟试验的结果

图3展示了这些算法的敏感性和FDR(false discovery rates)。可以看出,SVmine 的敏感性最高, FDR 最低。

Fig. 3. Sensitivities (A-C) and FDRs (D) at different coverages for the 7 SV detection algorithms with a SNV rate 0.1 and an Indel rate 0.2. (A) Sensitivity for deletions. (B) Sensitivity for inversions. (C) Sensitivity for translocations. (D) Overall FDR.

断点准确性方面,对其他算法而言,断点精度受附近的SNVs / INDELS影响,显著。例如,在SV断点附近没有突变的时候, Delly 和Softsearch 算法能给出非常准确的断点估计;但当SV断点附近存在突变的时候,其准确性明显下降。相比之下,此时的SVmine依然提供的信息相对精确。

Fig. 4.模拟研究中的断点准确性箱图

Table 1. The sensitivity, precision and median breakpoint accuracy for somatic SV detection.


Table 2. Percentages of SV predictions of NA12878 validated by long reads


(二)真实数据的分析

首先,与1000 Genome 数据的比较:

把六个算法与NA12878预测的结果取交集。在这里,我们对两个SV有overlap的定义为:如果断点距离双方小于350 bp。一般情况下,在用SVmine进行过滤之前,overlap是相当低的,但在SVmine过滤后,overlap有明显的改善。

Fig. 5. (A) Overlaps of SVs given by the 6 SV detection algorithms in NA12878. Num- bers in the plot are the percentages of the SVs detected by algorithms shown in the rows that are also detected by algorithms shown in the columns. For example, 69% BreakDancer SVs are also detected by Delly (the second row and the first column). (B) The overlaps of SVs that are detected by different algorithms and filtered by SVmine. Numbers in the plot are similar to panel (A).

其次,与结直肠癌数据的比较:

在本节中,我们同时应用SVmine算法和其他算法,并比较它们的表现。发现有338个经验证有效的缺失、倒置和易位。BreakDancer, Delly, GASVpro, Hydra Softsearch和SVdetect分别检测到65%, 72%, 81%,80%, 68%和67% 的 SV,相比之下,SVmine检测到 90%。

Fig. 6. (A) The breakpoint of the fusion VTI1A-TCF7L2 given by SVmine is exactly the same as the validated breakpoint. The grey bars are split-mapped reads by the sandwich alignment of SVmine. (B) The overlap of somatic SVs detected by the 6 algorithms in colorectal cancer data. Numbers in the plot are similar to Fig. 5. (C) The overlap of SVs detected by different algorithms and filtered by SVmine. (D) Boxplot of breakpoint accuracy for the colorectal cancer data set. The y-axis is the distance between a predicted breakpoint and its corresponding validated breakpoint.


当然,SVmine也存在不足。

为了最大限度地提高SV检测的灵敏度,得先使用多个SV检测算法得到一组候选SV。这是耗时的,特别是对于高覆盖的WGS数据。但我们可以改善这个问题,例如只有采用一些具有高灵敏度的算法,Delly和GASV-pro。

当前NGS数据的读长仍然较短(~150 bp)。复杂基因组区域的SV,如重复区域,片段重复区域是非常难以检测的。随着三代测序平台如PacBio等的发展,这些复杂的区域也能被准确地检测,用SVmine的策略也可以推广到PacBio这样的 long read 数据。

/End.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-10 11:29 , Processed in 0.176285 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.