搜索
查看: 1493|回复: 1

[mRNA-seq] illumina 双端测序(pair end)(搬运)

[复制链接]

6

主题

6

帖子

115

积分

注册会员

Rank: 2

积分
115
发表于 2019-4-23 15:36:29 | 显示全部楼层 |阅读模式
本帖最后由 dasunjie6 于 2019-4-23 15:38 编辑



纯搬运,非原创,原网站已不可考


一、Library Preparation文库的构建



1. 利用转座子(transposome)对双链DNA进行剪切以及接头(adapter)的连接
1.png
2. 接头连接成功后,利用低循环扩增技术在接头处进行修饰,分别在两端添加sequencing primer binding site1/sequencing primer binding site2(即测序引物结合位点)、index1/index2以及我们称之P5和P7的寡核苷酸序列
2.png
这里要注意两点(1P5P7是不同的,它们分别和flowcell上的接头互补和相同。为了方便阐述,将与P5互补的接头称为P5’,与P7互补的接头称为P7’。(2index1index2也是不同的,与P5相连的是index2,与P7相连的是index1关于index,也叫barcodes,因为一个lane可以同时测多个样品,为了避免混淆样品的read products,每种样品的DNA由一种index修饰,这样测序得到的reads都是具有index标记的,在测序结果中,依据之前标签与样品的对应关系,就可以获得对应样品的数据。而这里的index1index2是为了区分paired-end测序得到的双端reads
二、Cluster generation 簇生成



1.Flowcell上随机分布了两种不同的寡核苷酸序列,分别与P5互补(即P5’),与P7一致(即P7)。
3.png
2.待测sequence通过P5与folwcell上的P5’序列杂交互补,以待测sequence为模板进行互补链(即reverse strand)的延伸,互补链的两端为P5’和P7’
4.png
3.  接下来模板链被切断并洗下
5.png
Reverse strand的P7’与Flowcell上的P7杂交互补,进行链的合成,这就是我们所熟知的桥式PCR
6.png
接下来合成的双链被解链,再分别与Flowcell上的接头杂交互补,延伸....解链,杂交,延伸,解链...如此重复35个循环
7.png
4. 桥式PCR完成后,使用NAOH将双链解链,并利用甲酰胺基嘧啶糖苷酶(Fpg)对8-氧鸟嘌呤糖苷(8-oxo-G)的选择性切断作用,选择性地将P5’与链的连接切断,留下与Flowcell上P7连接的链,也就是Forwardstrand。同时游离的3’端被阻断,防止不必要的DNA延伸
8.png
三、测序


1. 测序引物(sequencing primer)结合到靠近P5的测序引物结合位点1(sequencing primer binding site 1)上,在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点:它是有荧光基团标记的,每种碱基标记的荧光基团不一样。它的3’末端连了一个叠氮基。这个叠氮基能够阻断后面的碱基与它相连
9.png

因此在聚合酶的作用下,与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上,而由于叠氮基的存在,后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉,将Flowcell进行扫描,扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应,因此一个循环就能同时检测多个样本(这也是高通量的核心所在)。这个循环完成后,加入化学试剂把叠氮基和标记的荧光基团切掉,进行下一个循环(碱基的连接、检测与切除)。如此重复直至所有链的碱基序列被检测出。也就是Forward read 序列。
10.png
2. Index测序:所有循环结束后,read products 被洗掉,index1 primer与链上index primer1 结合位点杂交配对,进行index1的合成及检测
11.png
4.        Index1测序完成后,洗脱测序产物。此时机器已通过荧光得到了index1的序列
12.png
5.        Index2测序:Forward strand顶端的P5序列与Flowcell上的P5’杂交配对,进行index2测序。测序完成后洗脱产物
13.png
四、Paried-end sequencing(即对Reverse strand测序)


1.洗脱index2测序产物后,以Flowcell上的P5’为引物,Forward strand为模板进行桥式扩增,得到双链
14.png
2.NAOH使双链变性为单链,并洗去已经测序完成的Forward strand
15.png
3.类似的,readprimer2结合到靠近P7’的read primer binding site 2开始对Reverse strand的测序。测序完成后即可得到Reverse read序列。
16.png
总结:有两点需要重点注意:
(1)DNA片段连接的两个接头P5和P7,它们与Flowcell上的两种寡核苷酸序列分别互补和相同,并不是都相同
(2)结合在DNA片段两端的index序列也不同,分别是index1和index2

前面介绍的都是paired-end的测序,而single-end测序方式是只将index,sequencing primer binding site以及P7/P5添加到 fragamented DNA片段的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列








单端测得太长错误率会提高,像一代测序也是,能够测几百bp的长度,但是越往后测序出来的条带杂峰会多,而且不清晰,二代测序也是一样的道理,单端测600bp会很不准确,双端300bp测序会准很多。
17.png
根据原理,我们可以知道上图中的fq1和fq2是实际测序得到的read1和read2。
注意:Excel排版原因导read1和read2显示长短不一,经过计算实际均为150个碱基。
步骤2:然后在得到原始sam/bam文件中找到这对reads,并列出碱基观察

18.png

仔细肉眼比对图二和图一,发现bam文件中reads2已被转义并且倒序排列。为什么这么确定是倒序过来的呢?细心的人会发现reads的质量值是倒过来的。到此问题2已经得到的解释。
为了彻底搞清楚,我们在IGV中可视化直观看一下:
我将图2中的重复碱基标红,将这两条序列的bam文件导入IGV中可视化:

19.png
图3中,非常直观看到两条带方向箭头的灰色条带(read1和read2)的比对到单序列的参考基因组(下方彩色条带)。
为了更加直观,让自己死心(我也是服了自己那颗躁动的心),我把对应参考序列也列出来了,模拟了一下IGV的比对情况,如图:

20.png









上一篇:mac自带的perl如何升级
下一篇:RNA-seq上游分析-01
回复

使用道具 举报

2

主题

16

帖子

155

积分

注册会员

Rank: 2

积分
155
发表于 2019-8-14 16:29:22 | 显示全部楼层
赞,学习了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-21 02:13 , Processed in 0.034491 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.