搜索
查看: 6165|回复: 9

Pipeline: speedseq 无痛快速准确完成 WGS 的 SNV CNV SV calling

[复制链接]

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2016-10-7 14:16:31 | 显示全部楼层 |阅读模式
本帖最后由 ZARL1114 于 2016-10-7 16:14 编辑

近年来,测序市场呈现出百花齐放的美好局面。这使得测序的成本不断下降,但同时也带来了数据分析的难题。经济而又高效地处理全基因组测序的数据,相信是每个人的愿望。如今,一个开源的基因组分析平台也许能满足你的愿望。


原始文章2015年发到 nature methods 上


这个平台被称为SpeedSeq,由华盛顿大学医学院等机构的研究人员开发。它利用低成本的服务器,在短短的13小时内即可完成50x人类基因组的比对、变异检测和功能注释。


参考博文:

GIT: https://github.com/hall-lab/speedseq  


核心程序 bwa+sambamba+samblaster+freebayes+lumpy+cnvnator,安装过程也比较简单, CNV检测程序 cnvnator 安装比较麻烦,对GCC版本有要求, 已经完成安装测试,使用起来操作也比较简单。


speedseq对配置的要求并不高,一台32线程的服务器+128 GB内存就可以了。算是很亲民的成本。

至于输入输出呢,和传统的BWA-samtools-GATK-picard流程的格式并没有什么两样





demo:
# Example speedseq commands on a small slice of chromosome 20
# 1. Align with BWA
../bin/speedseq align \
    -o example \
    -M 3 \
    -p \
    -R "@RG\tID:NA12878\tSM:NA12878\tLB:lib1" \
    data/human_g1k_v37_20_42220611-42542245.fasta \
    data/NA12878.20slice.30X.fastq.gz

# 2. Detect SNVs and indels
../bin/speedseq var \
    -o example \
    data/human_g1k_v37_20_42220611-42542245.fasta \
    example.bam

# 3. Detect SVs
../bin/speedseq sv \
    -o example \
    -B example.bam \
    -S example.splitters.bam \
    -D example.discordants.bam \
    -R data/human_g1k_v37_20_42220611-42542245.fasta

# 4. realign with BWA
../bin/speedseq realign \
    -o example.realign \
    -M 3 \
    data/human_g1k_v37_20_42220611-42542245.fasta \
    example.bam







上一篇:有参转录组分析过程中的一些问题
下一篇:第二贴:CpG岛
回复

使用道具 举报

634

主题

1180

帖子

4008

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4008
发表于 2017-1-6 14:51:47 | 显示全部楼层
我还没开始用,先列一个自己的草稿吧:

文章发表在2015的nature methods上面:http://www.nature.com/nmeth/journal/v12/n10/full/nmeth.3505.html
一般在nature methods上面的文章都写的条理清楚,只要是稍微有一点生物信息学基础的都可以照本宣科的学习到,但需要不少时间,毕竟是比较复杂的流程,SpeedSeq也不例外。不仅详细说明了如何安装及使用,还与主流的WGS数据分析软件做了比较。
而且github里面有非常详细的安装教程和使用说明:https://github.com/hall-lab/speedseq

软件安装就会卡掉非常多的人,需要自行安装下面的软件:
BWA (http://bio-bwa.sourceforge.net/)
FreeBayes (https://github.com/ekg/freebayes)
LUMPY (https://github.com/arq5x/lumpy-sv)
Sambamba (http://lomereiter.github.io/sambamba/)
SAMBLASTER (https://github.com/GregoryFaust/samblaster)
Vawk (https://github.com/cc2qe/vawk)
GNU Parallel (http://www.gnu.org/software/parallel/)
mbuffer (http://www.maier-komor.de/mbuffer.html)
Ensembl Variant Effect Predictor (VEP) (http://www.ensembl.org/info/docs/tools/vep/index.html)
CNVnator (http://sv.gersteinlab.org/)
还需要自行下载参考基因组及构建索引,还有一些变异位点注释信息。
SpeedSeq有几个核心功能,分别是align/var/somatic/sv/realign
待续~~~~~

你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 0 反对 2

使用道具 举报

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-4-11 15:52:49 | 显示全部楼层
jiongz 发表于 2017-1-6 14:34
我就想问问,你有没有遇到可以顺利align出来,但var时就卡住的情况么?
之前用speedseq跑了一个全基因组就 ...

问题解决了 是 推荐的那个BED 文件一定要加上
回复 支持 1 反对 0

使用道具 举报

0

主题

2

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2017-1-6 14:34:44 | 显示全部楼层
我就想问问,你有没有遇到可以顺利align出来,但var时就卡住的情况么?
之前用speedseq跑了一个全基因组就发生了这种情况,程序卡在freebayes上就无法继续下去了,后来把总是卡住的1号染色体去掉后就顺利的跑出来了。可是用看align出来的bam文件的1号染色体好像也看不出来什么问题。。。有什么好的办法可以检查哪里出了问题么?

另外我的cnvnator就从来没有安装成功过。。。不过后来call sv的时候也没有用它,只用了svtyper,然而好像并没有什么用:我期待的结果会是这样:
8  129375347  10703_2   A   ]4:173467976]T
但实际的结果却是这样:
8  129375347  10703_2   N   ]4:173467976]N
为什么会是N?是我用错了方法么?
回复 支持 反对

使用道具 举报

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-4-9 10:09:28 | 显示全部楼层
jiongz 发表于 2017-1-6 14:34
我就想问问,你有没有遇到可以顺利align出来,但var时就卡住的情况么?
之前用speedseq跑了一个全基因组就 ...

我最近也在使用speed callvar 有的时候会卡住
回复 支持 反对

使用道具 举报

634

主题

1180

帖子

4008

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4008
发表于 2017-5-25 15:26:20 | 显示全部楼层
SpeedSeq,由华盛顿大学医学院等机构的研究人员开发。它利用低成本的服务器,在短短的13小时内即可完成50x人类基因组的比对、变异检测和功能注释。这项成果本周在线发表于《Nature Methods》上。

二代测序技术的进步降低了全基因组测序所需的成本和时间,为人类基因组的深入探索提供了机会。然而,计算处理和变异解释的瓶颈阻碍了这些技术的广泛采用。通常,人们要使用多个工具和60-70个小时来处理50x人类全基因组,才能从原始序列数据中获得变异检出。此外,区分致病和良性的突变,也是一个费时费力的过程。

此次开发的SpeedSeq是一套开放源代码的软件,专为快速的全基因组变异检测和解释所设计。它采用模块化的架构和通用的格式,适合各种实验设计,并与行业标准的软件兼容。SpeedSeq可将50x WGS原始数据转化成单核苷酸变异(SNV)、短的插入缺失(indel)和结构变异(SV),而只需要一台32线程的服务器和128 GB的内存,成本低于1万美元。

研究人员利用瓶中基因组计划(GIAB)的人类样本NA 12878来评估SpeedSeq在SNV和indel检出上的准确性。他们发现,对于生殖细胞的SNV和indel,SpeedSeq分别实现了99.9%和89.9%的灵敏度,而错误发现率也在可接受的范围(分别为0.4%和1.1%)。这些表现甚至超过了人们常用的GATK-UG工具。

癌症基因组分析也是科研和临床环境中一个常见的WGS应用,对时间颇为敏感。为了检验SpeedSeq在癌症数据上的表现,研究人员获得了五组肿瘤-正常的WGS数据(50x肿瘤、30x正常),其体细胞突变经过验证。SpeedSeq检出了五组数据中2,746个正交验证突变中的96.4%,包括癌症相关基因中98.8%的突变。

结构变异的确定也是基因组全面分析中重要的一部分,当然也存在一定的挑战。据介绍,SpeedSeq通过三个互补的工具而实现了全面的结构变异分析。它的核心是LUMPY,一个断裂点检测工具;CNVnator利用读取深度分析来检测LUMPY发现不了的CNV;SVTyper这种算法能够对结构变异进行基因分型。通过这种组合,SpeedSeq能轻松找到基因组重排。

作者认为,SpeedSeq在检测生殖细胞和体细胞的单核苷酸变异、结构变异、插入和缺失时,其表现与现有方法相当或更佳。
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

2

帖子

37

积分

新手上路

Rank: 1

积分
37
发表于 2018-4-9 14:59:29 | 显示全部楼层
Jimmy 发表于 2017-1-6 14:51
我还没开始用,先列一个自己的草稿吧:

文章发表在2015的nature methods上面:http://www.nature.com/nmet ...

就因为看到你这个差点要被气死,安完才发现根本不用手动安装,speedseq就自带了这些,编译就可以了,需要自行安装的只有root。
回复 支持 反对

使用道具 举报

634

主题

1180

帖子

4008

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4008
发表于 2018-6-20 17:53:16 | 显示全部楼层
Crona 发表于 2018-4-9 14:59
就因为看到你这个差点要被气死,安完才发现根本不用手动安装,speedseq就自带了这些,编译就可以了,需要 ...

O__O "…不是说了我还没有开始用吗?
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

4

主题

8

帖子

123

积分

注册会员

Rank: 2

积分
123
发表于 2018-7-10 15:00:26 | 显示全部楼层
这个要是非root用户安装是不是基本成功不了?
回复 支持 反对

使用道具 举报

0

主题

22

帖子

75

积分

注册会员

Rank: 2

积分
75
发表于 2018-7-24 15:07:53 | 显示全部楼层
为神武 发表于 2018-7-10 15:00
这个要是非root用户安装是不是基本成功不了?

哪有说要 root 用户?那个ROOT和root 用户不是一回事
专注于 Spark 分布式快速处理基因数据
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-9-23 01:46 , Processed in 0.097479 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.