搜索
查看: 3923|回复: 12

大型基因组拼装的乐高软件之MaSuRCA assembler使用指南

[复制链接]

11

主题

50

帖子

275

积分

版主

Rank: 7Rank: 7Rank: 7

积分
275
发表于 2016-9-22 23:13:40 | 显示全部楼层 |阅读模式
本帖最后由 Mint 于 2016-9-23 11:29 编辑

有了三代测序技术的火爆,各种利用PacBio 长reads来做大型基因组的de novo 组装和改进的软件纷纷上架。其中有用于长Reads的,比如Falcon, 是PacBio自家的二倍体分层基因组组装工具;长短reads混双的,比如pacBioToCA;还有填补gap的PBJelly. 给了这么多个支点,是不是感觉可以轻松撬动地球上任何物种基因组了。呵呵呵,等您亲自下手去拼装了,就会发现,测序深度,特定读长的reads数目,服务器的能力等等,都会提醒你现实的骨感和梦想的丰满。请各位搬好板凳备好瓜,听我来扒一扒最近用MaSuRCA这个混双基因组乐高软件拼装基因组的那些事儿。

MaSuRCA是马里兰大学写的大型基因组组装软件,官方预告说Sanger, 454, Pacbio and Nanopore等长reads都可以和illumina短reads掺着用,听起来感觉棒棒哒。到底好不好用,先来扒一扒原理。

首先,用错误率低的illumina短reads来搭建较长的super-reads, 组成一个15-mer的备用数据库;然后,以错误率高的PacBio 长reads作为模板,使用备用数据库中的super-reads进行比对,super-reads 连接并且延长,组成更长的pre-mega-reads,不连续的super-reads将会被丢弃;  最后,从pre-mega-reads中挑选出最终需要的mega-reads,用来组装基因组。听起来是不是比拼206块人骨容易多了?没听明白还在懵逼的科科们,快醒醒奥运会都结束了,赶紧去瞅瞅下图。

搞清楚了原理,下面进入实战,请各位玩家先投币:
1) 下载软件:http://www.genome.umd.edu/masurca.html 请根据系统选择版本MaSuRCA-X.X.X-Y.tar.gz
2) 装 ./install.sh 自读readme。伸手党玩家GAME OVER,请返回上级,继续投币。
3) 组装super-reads:
/install_path/bin/masurca-superreads\
/data/illumina_1.fq : /data/illumina_2.fq
切记!!请输入原始illumina数据。多原始?任何trim, clean,error correction都会恶化组装。 简言之,欲练此功,必须素颜全裸!否则走火入魔!原来这是三代测序界的玉女心经,就欣赏这种古墓派设置嘿嘿嘿~ 在此提醒各位,使用下载数据有风险,本人不止一次发现下载的数据是赝品,乍一看完美,想在里面挖到宝就呵呵了。一并在此墙裂呼吁学术诚信。本人此次100%纯手工自产数据,对你没看错这是赤果果的炫富~
4)组装:
mkdir test #自建目录
cd test
/install_path/bin/masurca -g config.txt
5)设置参数:在生成的config.txt中 :
DATA:
PE=pe 180 20 /FULL_PATH/frag_1.fastq /FULL_PATH/frag_2.fastq  # paired end reads,180是library insert average length ,20 是standard deviation,具体情况自行更改
JUMP=sh 3600 200 /FULL_PATH/short_1.fastq /FULL_PATH/short_2.fastq #其他illumina 数据,比如jumping,DiTag,mate pair 等
PACBIO=/FULL_PATH/pacbio.fa #PacBio长reads
OTHER=/FULL_PATH/file.frg #可以是454, Sanger 等长reads
END

PARAMETERS:
#必选参数
NUM_THREADS=16 #cores数目
JF_SIZE=2000000000 #设定为基因大小的10倍
#非必选参数
USE_LINKING_MATES=1 #若大于2X长reads, 此处设0.
GRAPH_KMER_SIZE=auto #最安全的设置
LIMIT_JUMP_COVERAGE=60 #最小的细菌设置,真核生物上限可设为300
CA_PARAMETERS= ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB  #细菌设定,其他物种改为0.15
SOAP_ASSEMBLY=0; #要是不想用SOAPdenovo2想用CABOG,改成1. 适合>5G的基因组
STOP_AFTER_SUPERREADS= 0 #装完SUPER-READS不停紧接着组装,设1 . 建议先看看super-reads coverage, N50 等参数,再挑出部分reads组装。
6) 使用参数生成运行程序: /install_path/bin/masurca config.txt
7) 运行程序:./ assemeble.sh
8)   坐等结果,同时排除各种可能中断运行的bugs。
9)   如果组装成功,/CA/产生 contig序列 “genome.ctg.fasta” 和scaffold序列“genome.scf.fasta ”

最后,有人想知道运行时间吗?
细菌基因组:16Gb RAM, 8+ cores, 10Gb,需要1小时;
昆虫基因组:128Gb RAM, 16+ cores, 1Tb,1-2天;
鸟类或者小植物基因组:256Gb RAM, 32+ cores, 1Tb ,4-5天;
哺乳动物基因组:512Gb RAM, 32+ cores, 3Tb ,15-20天;
植物基因组:1Tb RAM, 64+cores, 10Tb ,60-90天!

劳资要装的是植物基因组!!!鬼知道我都经历了什么!!顶着锅盖要了最大空间,半夜爬起来看服务器有没有崩溃,花了一周排除了几打bugs, 实际运行3天,终于完成了!感谢服务器管理员的神助攻么么哒。

我的MaSuRCA乐高大型基因组故事讲完了。
我是个很严肃的生信科学家。
以上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:如何参与生信技能树论坛建设
下一篇:perl英文电子书大全
回复

使用道具 举报

633

主题

1176

帖子

3973

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3973
发表于 2016-9-23 09:23:45 | 显示全部楼层
这是我看过的最风趣幽默的软件使用教程贴,没有之一,你的文字编辑能力非常棒,尤其是新媒体相关的,就是论坛的编辑器你可能还不是很熟练,加油
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 1 反对 0

使用道具 举报

11

主题

50

帖子

275

积分

版主

Rank: 7Rank: 7Rank: 7

积分
275
 楼主| 发表于 2016-9-23 11:34:18 | 显示全部楼层
Jimmy 发表于 2016-9-23 09:23
这是我看过的最风趣幽默的软件使用教程贴,没有之一,你的文字编辑能力非常棒,尤其是新媒体相关的, ...

嗯好
回复 支持 1 反对 0

使用道具 举报

0

主题

1

帖子

37

积分

新手上路

Rank: 1

积分
37
发表于 2016-9-23 08:51:26 | 显示全部楼层
不明觉厉
回复

使用道具 举报

58

主题

103

帖子

752

积分

版主

Rank: 7Rank: 7Rank: 7

积分
752
QQ
发表于 2016-9-23 16:00:52 | 显示全部楼层
手动点赞
回复

使用道具 举报

2

主题

7

帖子

57

积分

注册会员

Rank: 2

积分
57
发表于 2016-9-23 16:20:04 | 显示全部楼层
mark 我来实践下!
回复 支持 反对

使用道具 举报

11

主题

50

帖子

275

积分

版主

Rank: 7Rank: 7Rank: 7

积分
275
 楼主| 发表于 2016-9-23 22:10:02 | 显示全部楼层
missshy 发表于 2016-9-23 16:20
mark 我来实践下!

等你交作业
回复 支持 反对

使用道具 举报

8

主题

52

帖子

304

积分

版主

Rank: 7Rank: 7Rank: 7

积分
304
发表于 2016-9-26 13:06:15 | 显示全部楼层
这么大的内存,扛不住!~
我的微博:dulunar
回复 支持 反对

使用道具 举报

0

主题

1

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2016-10-13 17:00:01 | 显示全部楼层
感谢楼主分享,不过MaSuRCA后面的runCA貌似可以支持SGE调度系统,所以内存可能不用那么多,不知楼主试过没,我这边只有PBS的,还有SOAP_ASSEMBLY=0是用CABOG,1才是SOAPdenovo2但准确度说是不大高,适合基因组5G以上的物种
回复 支持 反对

使用道具 举报

0

主题

15

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2017-2-18 21:48:52 | 显示全部楼层
赞赞!学习了!
请教个问题,问什么需要耗费那么大的硬盘容量10T?
植物基因组:1Tb RAM, 64+cores, 10Tb ,60-90天!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-7-22 11:14 , Processed in 0.092850 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.