搜索
查看: 2340|回复: 0

转载Cutadapt软件使用说明书

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-3-30 08:59:59 | 显示全部楼层 |阅读模式
本帖最后由 ydchen 于 2017-3-30 09:03 编辑

转载自:2017-03-29 安诺基因
或者直接查看原文:http://mp.weixin.qq.com/s/gX_TUACZqJJ6p6S37po1cQ
Cutadapt是一款在一定容错率的情况下对高通量测序的数据进行识别/剪切/去除adapters,primers ,poly_A等序列(即你不想要的序列)的软件。


简单粗暴的解释就是在进行数据过滤时cutadapt可以检测并去除adapter污染的reads。你可能会问什么是adapter污染?小编现在科普一下,adapter污染指的是由插入片段长度不够,测序仪读到的测序引物等序列。

上面小编巴拉巴拉的说了很多,重点是为大家推荐一款在测序数据分析前要用到的功能强大的软件-cutadapt。作为一个负责任的小编,我已将这款软件从安装到使用的方法都整理出来啦,更更重要的是有实践练习哦。理论+实践,保你学有所获~

安装说明

版本:最新为cutadapt v1.12
安装:

方法1
使用pip命令安装:pip install –uesr –upgrade cutadapt。

方法2
官网下载后放到Linux目录下,解压后选择Python2 setup.py install –user。

其他的安装方式可参考官网。
网址:
http://cutadapt.readthedocs.org/en/stable/guide.html

使用指南
软件基本参数


以上介绍的是软件常用的参数,掌握这些参数基本能满足日常的分析需求。如需高大上的参数,就接着往下看~

基本剪切类型

Cutadapt软件可以剪切多种类型的adapter,如下表所示:


说明:将adapter字符串替换为实际的ATGC序列。
基本参数及基本的剪切类型掌握后,再来学习怎样利用它进行识别和匹配,图例如下:


为便于大家理解原理,小编准备了一些理解案例。在展示之前,小编有话要说:“为了让案例更简单清晰易懂,数据没有采用ATCG序列,而是采用了易识别的英文单词,如MYSEQUENCE ,ADAPTER,不适用于实际测试。”

理解案例

命令行为cutadapt –a ADAPTER input.fq > output.fq or cutadapt –g ADAPTER input.fq > output.fq


理解了吗?没有理解的话,欢迎留言哦,大神会第一时间解答你的问题~

实操案例

说完示例,不来点干货怎么行。下面的干货大家可以任性带走。

命令行1
cutadapt -a GATCGGAAGAGCACACGTCTGAACTCCAGTCAC -O 5 test.fq -o test_output.fq --discard-trimmed
说明:将输入文件test.fq中3’端能够匹配GATCGGAAGAGCACACGTCTGAACTCCAGTCAC 5个碱基的reads去掉后写入输出文件output.fq文件中。

命令行2
cutadapt -a GATCGGAAGAGCACACGTCTGAACTCCAGTCAC test.fq > output.fq 1>/dev/null 2> report1.tx
说明:将输入文件test.fq中3’端能够匹配GATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3个碱基的reads trim后写入输出文件output.fq文件中,并将运行报告输入到report1.txt文件中。

命令行3
cutadapt -a GATCGGAAGAGCACACGTCTGAACTCCAGTCACtest.fq -o output.fq --info-file=test.adapter.txt
说明:将输入文件test.fq中3’端能够匹配GATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3个碱基的reads trim后写入输出文件output.fq文件中,并将adapter及reads信息写入到test.adapter.txt文件中。

test.fq可以仿照fq文件格式自行伪造或用你已有的fq序列。小编在这里也为大家准备了几条适合测试的reads,在安诺基因微信公众号回复“测试”即可轻松获得,赶紧检验一下你的学习成果吧。

双端reads用法

理论结合实操,cutadapt的基础用法没问题了吧?接下来为大家展示了双端reads去除adapter操作的参数。





使用示例:cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fq -pout.2.fq reads.1.fq reads.2.fq
-a:reads.1.fq的adapter序列;
-A:reads.2.fq的adapter序列;
-o:reads.1.fq的trim adapter序列后的输出文件;
-p:reads.2.fq的trim adapter序列后的输出文件。

其他参数

Cutadapt的强大功能绝不只体现在去除adapter这么简单,下面小编送大家几个常用的其他功能参数。请大家自行尝试,有问题欢迎留言哦~


最后小编要交待一件事情,什么格式的文件可以使用cutadapt呢?Cutadapt主要支持的文件格式有FASTA、FASTQ、压缩文件。以下几点为重要说明,一定要认真看。

1
---通过输入文件的扩展名自动识别文件格式,若输入为Sample.fq,则程序默认输入文件为fastq文件格式;
2
---输出文件格式与输入文件格式一致,与给定的输出文件的拓展名无关;
例如:输入为s1.fq.gz ,输出为s1.out.fa 。虽然输出名称仍为s1.out.fa,但s1.out.fa文件中的内容仍是fastq格式而非fasta格式。
3
---可自动从文件名识别是否需要(解)压缩;
4
---支持通配符( [url=]IUPAC nucleotide codes[/url]),常用的N可代替ATCG任意碱基。

以上是关于cutadapt软件的使用说明,你学会了吗?

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-23 18:05 , Processed in 0.046015 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.