搜索
查看: 5016|回复: 4

PacBio sequence error correction amd assemble via pacBioToCA

[复制链接]

11

主题

34

帖子

332

积分

版主

Rank: 7Rank: 7Rank: 7

积分
332
发表于 2016-9-12 22:27:36 | 显示全部楼层 |阅读模式

Illumina二代测序有个致命缺陷,说到底还是基于PCR扩增的,所以存在偏向性和对于高GC含量区无法扩增等系统误差,测序错误是不可避免的,其次就是测序长度短;但其价格便宜,通量非常高,准确性达99%,综合性价比也受到青睐。短序列的reads在做基因组装的时候,遇到大的重复片段就会很吃力。

10X Genomics

2015年备受瞩目的测序黑马:10X Genomics,是常规Illumina二代测序的升级版,由于开发出了一套巧妙的Barcoding建库方案,使得Illumina这种短读长二代测序能够得到跨度在30-100Kb的linked reads信息,与二代测序数据相结合,在Scaffold的组装上能够得到媲美三代测序的组装结果;

基本原理: 首先将每一条长片段的DNA分配至不同的油滴微粒中,通过专利的GEM建库技术,长片段DNA被切碎成适合测序的大小,并且来源于相同油滴(同一条长片段DNA)的DNA片段,会带上相同的一段DNA序列标记(Barcode),之后在Illumina系统上测序完成后,可以理论上再将来源相同的DNA序列独立拼接,得到原先的长片段DNA序列。
对于不同GC含量区其效果如何呢?2015年10月Nat Review Genetics文章Genetic variation and the de novo assembly of human genomes中总结的PacBio、10X Genomics以及Illumina技术在不同GC含量DNA区域的覆盖度分布:

10X Genomics技术相对于Illumina来说,有改进,但依旧是个拱形,而PacBio则是无偏倚的均一分布,10X的技术,其Coverage一样是受GC含量影响较大的,那么如果真要应用10X技术,那么必须注意目标DNA的GC含量分布最好能控制在30~70%。
但10Xgenome毕竟是升级版,其也存在一些特有的优势:


(1) 微量样本:仅需1ng基因组DNA即可进行长片段建库;

(2) 精确分区:由于拥有众多的barcode和Partions,可对DNA进行精确分区;

(3) 长片段信息:该技术可与Illumina测序仪进行无缝对接,利用短Reads可获得长达100Kb的片段;


(4) 基因组组装质量提升:利用长片段信息结合Illumina组装数据组装的ScaffoldN50长度比单纯用Illumina方法提高十几倍。

第三代测序中的PacBio单分子实时(Single Molecule Real-Time, SMRT)DNA测序可以实现超过99.999%(QV50)的高度精确测序,且不受DNA序列中GC和AT含量的影响,平均读长可达20kb(最长>60kb)。

PacBio三代测序最大的死穴是:通量不足和单次(1X)测序错误率高(85%);但三代的错误是完全随机发生的,属于随机误差,可以靠覆盖度来自我纠错,如果通量不是限制因素,那么PacBio是目前最准确的测序方式:错误率可以无限接近罕见突变的发生率(即无法分辨是测序错误还是罕见突变)。2012年冷泉港实验室的Michael Schatz开发了一种纠错算法,用二代测序的短读长高精确数据对三代长读长数据进行纠错,这种称为”混合纠错拼接” (Hybrid error correction and de novo assembly of single-molecule sequencing reads)可以进一步提升PacBio测序精确度。
PBcR: 混合纠错拼接

PBcR: 混合纠错拼接 粉色长方形:单个PacBio RS reads;黑色竖线:测序错误;(a)由于测序错误碱基的存在使得两条reads就难确定是否在末端重叠;(b)高质量的短reads比对到存在错误的长reads;短reads中的黑色竖线表示 ‘mapping errors’ ,是长reads和短reads中测序错误的组合,此外双拷贝的重复序列的存在(灰色轮廓)导致在每一个拷贝中出现短reads的堆挤,为避免reads map到错误的重复区,仅保留最高比对值的短reads;(c)剩余的比对形成一致性序列(紫色长方形),长reads和短reads中共有的部分错误未能得到纠正;(d)overlap纠正后的长reads;(e) 最后的组装能够跨越重复区域。
Illumina reads纠错覆盖度



纠错的准确性和组装一致性在Illumina高质量reads达50X后开始收益递减,因此50X Illumina reads足够,纠错后PacBio长reads准确性将由85%提升至>99.9%,此时嵌合体和错误剪切reads分别为<2.5% 和 <1%。
目前在P6C4试剂下,大约每SMRT Cell平均可以做到 600M~1G数据量。
PacBio的长读长、无GC偏向性和无PCR扩增偏向性等独特优势有助于克服复杂的重复区域,从而跨越整个基因转录区,显著提升基因组和转录组的De Nove组装质量;

Illumina二代+PacBio三代数据分析

PBcR首先通过纠错来提升PacBio reads准确性,然后进行组装。PBcR的纠错和组装分为self-correction (using only PacBio RS data,自动运行fastqToCA) or correction with high-identity sequences(二代数据)。

self-correction
1
PBcR -length 500 -partitions 200 -l lambda -s pacbio.spec -fastq pacbio.filtered_subreads.fastq genomeSize=50000 > run.out 2>&1
高质量Illumina reads
1
2
3
4
5
6
7
#short read准备
fastqToCA -libraryname illumina -technology illumina -reads illumina.fastq > illumina.frg
#纠正
pacBioToCA -length 500 -partitions 200 -l ec_pacbio -t 16 -s pacbio.spec \
    -fastq pacbio.filtered_subreads.fastq illumina.frg > run.out 2>&1
#组装
runCA -p asm -d asm -s asm.spec ec_pacbio.frg > asm.out 2>&1

: 第一步short reads准备阶段请确认二代数据第四行质量编码值,一般是33,否则用-type参数指定,要不然会报错QV问题;
纠正时PBcR需要安装AMOS和blasr依赖软件,输入文件short reads (illumina.frg)和long reads (pacbio.filtered_subreads.fastq);
fastqToCA和PBcR两个中的libraryname需不同;
fastqToCA生成的frg文件后面没有序列信息 ,是正确的;

Spec files参数解释

PBcR混合组装需要指定两个Spec配置文件: pacbio.spec(纠错)和asm.spec(组装)。这两个文件都包含特定的算法参数和计算机硬件参数,通常情况下算法参数可以忽略(此时将用软件默认值),但是计算机硬件参数需要根据实际情况调整。
所有参数均为option = value形式,其中的value为布尔型(boolean),即true=1,false=0。
具体关于specfile参数解释见PBcR:SpecFiles Options





上一篇:【读好书】宏基因组百科全书
下一篇:棉花基因组和注释文件
欢迎访问 my blog : Hope, Bioinformation
回复

使用道具 举报

0

主题

15

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2017-2-18 21:45:25 | 显示全部楼层
技术好贴,大势所趋,相信你这三代测序板块会火啊,顶一个~
回复 支持 反对

使用道具 举报

0

主题

15

帖子

215

积分

中级会员

Rank: 3Rank: 3

积分
215
QQ
发表于 2017-5-10 17:10:09 | 显示全部楼层
对于三代测序的优缺点讲解的很清楚,也get到了一些东西。只是那个PBcR: 混合纠错拼接中的C步,如何得到的紫色的条,没有看懂......
回复 支持 反对

使用道具 举报

7

主题

26

帖子

796

积分

版主

Rank: 7Rank: 7Rank: 7

积分
796
发表于 2017-9-13 14:39:42 | 显示全部楼层
可以简单解释下为什么50X之后会收益会递减吗?
回复 支持 反对

使用道具 举报

7

主题

26

帖子

796

积分

版主

Rank: 7Rank: 7Rank: 7

积分
796
发表于 2017-9-13 14:42:07 | 显示全部楼层
Martin 发表于 2017-5-10 17:10
对于三代测序的优缺点讲解的很清楚,也get到了一些东西。只是那个PBcR: 混合纠错拼接中的C步,如何得到的紫 ...

他默认了二代是高质量的,因此都用二代把三代不同于二代的地方给矫正了,矫正的结果也显示偶尔二代也会有错误
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-6 12:21 , Processed in 0.027466 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.