搜索
查看: 2865|回复: 0

格式转换小任务-sam2fastq

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-1-6 09:34:45 | 显示全部楼层 |阅读模式
需要了解sam是什么,请谷歌!
需要了解fastq是什么,请谷歌!

对于单端测序数据的sam和双端测序数据不一样!

本质就是提取sam的第1,10,11列即可!
双端测序数据的sam需要首先按照reads name排序,这样才能一行行的按照奇偶性分开输入到reads1.fq 和reads2.fq

[Perl] 纯文本查看 复制代码
perl -alne 'BEGIN{open FH1,">1.fq";open FH2,">2.fq"}{if($.%2==0){print FH1 "$F[0]\n$F[9]\n+\n$F[10]" }else{ print FH2  "$F[0]\n$F[9]\n+\n$F[10]"}}'


需要注意的是,双端测序数据的sam,有些reads可能是缺失了配对序列,需要注意。
然后就是有些sam格式,一条reads出现多条记录,在sam文件。



所以一般推荐用现成的工具,比如bedtools的bam2fastq,请谷歌。

随意Google一下,就能拿到现成的工具。这里挑选大名鼎鼎的bedtools咯。       
http://bedtools.readthedocs.io/en/latest/content/tools/bamtofastq.html
https://gsl.hudsonalpha.org/information/software/bam2fastq




上一篇:Ensemble的人类参考基因组
下一篇:格式转换小任务-bam2bw
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-16 09:10 , Processed in 0.028732 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.