搜索
12
返回列表 发新帖
楼主: W.Peng

NGS 数据过滤之 Trimmomatic 详细说明

[复制链接]

5

主题

37

帖子

483

积分

中级会员

Rank: 3Rank: 3

积分
483
 楼主| 发表于 2017-7-29 13:11:25 | 显示全部楼层
angeltgc521 发表于 2017-7-29 11:35
palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值 这两个参数是啥意思 谁能给解释一下 谢谢  ...

Trimmomatic 可以对不同类型测序数据采用不同的过滤接头模式,对 SE 数据只能使用 simle 模式,对 PE 数据可以用 simple 和 palindromic 模式。是否进行 adapter 切除取决于比对得分是否超过阈值,比对得分计算方法:考虑测序碱基的质量值 Q 的影响,每一个比对上的碱基加分 0.6,每一个错配的碱基减分 Q/10。

simple 模式就是直接将 adapter 序列与测序得到的 reads 序列进行比对,如果比对得分超过阈值(例如 7 )就将比对上的部分切除,如果剩余部分序列长度低于设定的最低值,整体 read 丢弃。

palindromic 是针对 PE 测序的 R1 和 R2 反向互补(文库插入片段太短,R1 和 R2 都已经将文库测通了)数据,计算 R1 和 R2 之间的反向互补匹配得分,规则同 simple ,但是阈值会高些(如 30,根据测序读长设置),如果得分超过阈值,直接将 R1 和 R2 除了反向互补之外的部分直接切除,因为根据测序原理,被切除的部分不可能包含有用数据。
回复 支持 反对

使用道具 举报

5

主题

37

帖子

483

积分

中级会员

Rank: 3Rank: 3

积分
483
 楼主| 发表于 2017-7-29 13:26:18 | 显示全部楼层
在文中图解的 A/B/C/D 四种模式中,palindromic 就是针对 D 模式的,看图更好理解一些。
回复 支持 反对

使用道具 举报

1

主题

7

帖子

664

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
664
发表于 2017-7-29 15:28:40 | 显示全部楼层
灰常感谢 。。。 赞。。。
回复 支持 反对

使用道具 举报

0

主题

11

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2017-8-6 17:55:23 | 显示全部楼层
太棒了!总结的太好了。我有几个问题想请教一下:1.我对Adaptor,index,primer的作用,区别还有联系一直搞不清。最近看到了barcoding的一个东西,更是混乱,看了楼主画的那个图,明确了他们的位置,但是困惑还是没有解决,百度的也没有很好讲解,楼主能解答一下或者给我一个链接自学吗?2.我之前做过一点RNA-seq数据分析,对质控这个概念停留在字面上。下机数据有个rawdata和cleandata,cleandata是不是已经被测序中心的人trimming好了?我用FastQC对cleandata质控后感觉挺好的(因为看你们说没有trimming的数据应该会有接头,index,引物的干扰)。
回复 支持 反对

使用道具 举报

5

主题

37

帖子

483

积分

中级会员

Rank: 3Rank: 3

积分
483
 楼主| 发表于 2017-8-6 19:02:45 | 显示全部楼层
午饭饭 发表于 2017-8-6 17:55
太棒了!总结的太好了。我有几个问题想请教一下:1.我对Adaptor,index,primer的作用,区别还有联系一直搞 ...

1,百度在技术资料搜索这方面比 Google 差的不是一点半点,用英文关键词 google 吧,看看 Illumina 测序仪原理步骤。

简单的说,Adapter 就是包含 index 和 primer 结合位点的合成序列,barcode 和 index 是同一类东西,就为了区分 reads 来源的的标签序列,因为 Adapter 序列可以自己设计,因此添加一个 Barcode 也没问题。primer 有两个地方需要,一个是文库构建过程中的 PCR 需要,另一个是测序的 SBS 需要,测序仪上 Flowcell 上也有 P5 和 P7 引物,用来捕获文库分子生成 cluster。

2,公司给的数据通常都是经过初步过滤的,跑个 FastQC 看一下,直接拿来做后续分析一般没问题。当然可以按照自己的要求标准设定参数重新过滤一次。
回复 支持 反对

使用道具 举报

0

主题

11

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2017-8-7 09:27:55 | 显示全部楼层
W.Peng 发表于 2017-8-6 19:02
1,百度在技术资料搜索这方面比 Google 差的不是一点半点,用英文关键词 google 吧,看看 Illumina 测序 ...

谢谢解答,解决了之前的很多困惑。我再去google学习一下。
回复 支持 反对

使用道具 举报

0

主题

1

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2018-1-25 17:03:25 | 显示全部楼层
感谢分享!!通过看这个,把我的数据运行成功了!但是有没有能批量运行的代码呢?新手小白一枚。在网上查了一下,都是用perl语言,完全一头雾水!
这个分析之后,想用修剪的数据匹配到参考基因组上,用bowtie2软件,但是看bowtie2软件的输入文件格式是fasta。。。修剪下来的文件格式是fq.gz。。。而且有四个,paired和unpaired,forward和reverse。。。该用哪个呢?
回复 支持 反对

使用道具 举报

13

主题

44

帖子

506

积分

高级会员

Rank: 4

积分
506
发表于 2018-10-22 17:28:26 | 显示全部楼层
请问一下最后的输出文件中unpaired的部分该怎么处理呢?直接丢掉?
回复 支持 反对

使用道具 举报

0

主题

1

帖子

23

积分

新手上路

Rank: 1

积分
23
发表于 2018-11-6 09:47:22 | 显示全部楼层
你好,Read1的原始数据大小本来7G左右,跑出来后只剩下3G左右。而Read2本来是7G的,输出6点多G。用的是PE150那个来跑的,请问这正常吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-16 07:43 , Processed in 0.072087 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.