搜索
查看: 2471|回复: 0

区间注释神器bedtools

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-5-2 19:19:17 | 显示全部楼层 |阅读模式
区间注释神器bedtools
我见过了太多人讲bedtools的用法,但我发现都讲的很烂,就是照抄软件说明书,毫无意义,还不如看英文原版。
群主有个帖子做了收集 http://www.biotrainee.com/thread-153-1-1.html


我为什么叫它区间注释神器呢?
首先必须要有一个区间记录文件(a),通常是bed格式的,比如每个基因的起始终止坐标,或者其它genomic features(promoter,tss,tts,cgi,exon,inton)的染色体及起始终止坐标
然后既然说是注释,必然是有另外一个文件,也是区间记录文件(b),记录着一个个特征,可以是比对的reads,找到的peaks,或者变异,把这些特征注释到各个区间,这就是我对bedtools的全部理解咯。

请务必记住两种区间文件:
(a),genomic features(promoter,tss,tts,cgi,exon,inton)
(b),reads,找到的peaks,或者变异,
一般来说是a文件包含着b文件

bedtools map requires each input file to be sorted by genome coordinate. For BED files, this can be done with sort -k1,1 -k2,2n.
功能非常之多,本来我以为intersect就够复杂了,直到我看到了closest的示意图~~~~~~~~

首先我们看看最简单的map,可以用来数落在每个区间的特征数。
http://bedtools.readthedocs.io/en/latest/content/tools/map.html
可以用参数-c指定统计的列,还有用-o来指定统计方法。默认是对第五列进行sum
但是这样只能统计每个区间被注释的个数,如果想知道具体注释了哪一个,需要用 closest

所以closest可以进行反向注释:
http://bedtools.readthedocs.io/e ... /tools/closest.html
可以注释b文件的每个特征落在a文件中的哪一个区间,对peaks的注释就是其中最经典的用法。

还有一些小功能:http://www.biotrainee.com/thread-153-1-1.html
第一个功能,把alignment的结果文件转为bedgraph格式文件。
第二个功能,对RNA-seq的比对文件中的比对到各个基因的reads进行计数。
接着第三个功能,根据坐标区域来从基因组里面提取fasta序列






上一篇:用shinyJS包来丰富网页应用
下一篇:在shiny程序里面安装Google分析追踪器
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-22 22:26 , Processed in 0.028720 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.