搜索
查看: 3442|回复: 4

如何利用seqtk模拟降低测序深度

[复制链接]

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2017-3-10 15:41:40 | 显示全部楼层 |阅读模式
我们在一些时候可能会用到这个需求
比如,如果想探究,
同一人全基因组重测序样本不同深度下得到的测序结果,分别可以找出多少突变
在多少深度下就能得到大部分突变呢?
饱和度曲线是什么样的?
有没有偏好性?
这时候
需要对大的样本进行不同数据量的随机抽样,模拟深度的降低

我们也可以自己写脚本完成这个需求但是速度会很慢

因此可以使用一些现成的工具
比较好的就是 seqtk seq_github 这个工具的速度很快 也是出自 HENG LI 大神之手【bwa 作者】
这个工具的使用率也是很高的 GITHUB上面有接近300的STAR

下载安装很简单
[AppleScript] 纯文本查看 复制代码
#安装
git clone [url]https://github.com/lh3/seqtk.git;[/url]
cd seqtk; make
#在PE数据中随机抽取10000条reads 注意seed 要一致
seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq


这样就从大样本中随机抽取出了小样本
模拟了测序深度的降低
样本量可以随意设置 比如 100W 条reads 1KW 条reads 等等
还可以在同一深度,做多次随机抽样,只需要修改 random seed就可以

seqtk 的运行速度是非常快的,可以用来操作10GB以上的fastq文件
这个工具还有其他的一些实用功能




上一篇:自闭症有很强的遗传背景
下一篇:华大基因的BGI-SEQ500 公开GIAB标准品数据 开放下载!
回复

使用道具 举报

5

主题

37

帖子

485

积分

中级会员

Rank: 3Rank: 3

积分
485
发表于 2017-3-13 16:03:24 | 显示全部楼层
也可以直接从比对好的BAM 或者SAM 中抽样,用Picard tools 的 DownsampleSam 功能,可以省了 fastq 比对到参考基因组这一步。
回复 支持 反对

使用道具 举报

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-3-13 16:31:36 | 显示全部楼层
W.Peng 发表于 2017-3-13 16:03
也可以直接从比对好的BAM 或者SAM 中抽样,用Picard tools 的 DownsampleSam 功能,可以省了 fastq 比对到 ...

谢谢! 准备 试一下 这个功能
回复 支持 反对

使用道具 举报

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-3-13 16:36:38 | 显示全部楼层
如果内存不够大的话 读写很大的文件是不能运行的 这时候可以 加上 -2 参数
[Bash shell] 纯文本查看 复制代码
seqtk sample -2 -s100 read1.fq 100000000 > sub1.fq
回复 支持 反对

使用道具 举报

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-4-27 23:06:07 | 显示全部楼层
W.Peng 发表于 2017-3-13 16:03
也可以直接从比对好的BAM 或者SAM 中抽样,用Picard tools 的 DownsampleSam 功能,可以省了 fastq 比对到 ...

但是这种方法不够科学 。  不同的版本  不同的比对软件的偏好性都是不一样的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-11 23:15 , Processed in 0.028632 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.