搜索
查看: 3024|回复: 3

[expression-profile] 怎么统计bam格式文件中的reads种类

[复制链接]

16

主题

16

帖子

99

积分

注册会员

Rank: 2

积分
99
发表于 2017-2-28 11:42:03 | 显示全部楼层 |阅读模式
问下这种图怎么做的,有bam文件,怎么知道其中多少reads在intron,exon,utr,ncrna,intergenic?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

4

主题

24

帖子

184

积分

注册会员

Rank: 2

积分
184
发表于 2017-2-28 12:36:40 | 显示全部楼层
首先你需要对各个元素有个明确的定义,你给的图里面的定义就是不对的。(1)ncRNA也有exon,intron。(2)UTR是exon的一部分,exon=5‘UTR+CDS+3’UTR。

我的猜测,图的本意是将转录组分成coding和noncoding,然后对于coding的部分,exon可以分为CDS和UTR。coding和noncoding的intron合并为一类。其余的为intergenic region。

有了这个定义之后,还需要设置一个order,对于一个染色体区间,它可能有多重定义,比如在某个transcript里面是exon,而在其他的transcript里面是intron。一般的order为CDS>UTR>noncodingRNA>intron>intergenic.

下一步是确定上述各个组分的基因组区间。把所有的CDS,UTR,noncoding exons, intron 取出来,做成bed格式。

最后是做bedtools 的intersection。用sam2bed将sam 转成bed,分别对上述文件做intersection。将overlap的reads按照上述的order,给每个read一个唯一的分类。最后统计分类,做图。
(1)Intersection是用bedtools的intersectBed命令。首先sam2bed将sam文件转成bed,然后和

它应该是先将转录组分成coding 和noncoding,然后coding里面再分你需要定义一个order,因为exon,intron,utr这些组分是有重叠的,一般设定ORF, UTR, intron
回复 支持 1 反对 0

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-2-28 12:05:44 | 显示全部楼层
我给你一个思路,bam文件虽然是二级制压缩版本的sam文件,里面的信息太多了,如果只需要做region的注释~
那么就从bam里面提取出染色体,比对的起始坐标以及reads长度,转为一个bed文件。
再把这个bed文件进行region注释,类似于chip-seq的peaks注释,就非常简单了!
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

3

主题

43

帖子

212

积分

中级会员

Rank: 3Rank: 3

积分
212
发表于 2017-3-7 10:18:25 | 显示全部楼层
这个图是不是有问题?区域有重叠啊
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-17 07:17 , Processed in 0.040967 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.