搜索
查看: 2295|回复: 0

bed文件格式解读

[复制链接]

29

主题

29

帖子

149

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
149
发表于 2018-8-19 15:14:08 | 显示全部楼层 |阅读模式
1)BED文件
BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单条数据的在注释上一致。


BED文件结构:
-------------------------------------------------------------必须有以下3列------------------------------------------------------------------------
    chrom :即染色体号
    chromStart :即feature在染色体上起始位置 。在染色体上最左端坐标是0
    chromEnd :即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0,  chromEnd=100, 跨度为 0-99.
----------------------------------------------------------------可选9列-------------------------------------------------------------------------------
    name :feature的名字 ,在基因组浏览器左边显示;
    score :在基因组浏览器中显示的灰度设定,值介于0-1000;
     
    strand :定义链的方向,''+” 或者”-”
    thickStart :起始位置(例如,基因起始编码位置)
    thickEnd :终止位置(例如:基因终止编码位置) 
    itemRGB :是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为'On”, 这个RBG值将决定数据的显示的颜色。
    blockCount :BED行中的block数目,也就是外显子数目
    blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
    blockStarts :用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应
2)bed和gff之间的关系
前面已经讲过GFF格式,用UCSC Genome Browser可以将两者进行可视化比较。 Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1;GFF中起始坐标是1而结束坐标至少是1。
bedtools是一款可以用来处理bed文件的一种常用工具。例如:
bedtools intersect -a input1.bed -b input2.bed      #可以用来求交集
bedtools genomecov  -ibam input.sortP.bam  -g genome.txt  #  计算基因组覆盖广度和深度
一些R包如BayesPeak,rtracklayer等也可以用来处理bed 文件。
3bedtools介绍及简单的应用
比较基因组不同区域是基因组研究中一个常见的问题。bedtools是一款用C++编写的小巧且灵活的软件来处理这些复杂的问题,可以用来比较、操作、注释bed和gff文件中的genomic features。它设计主要是在linux环境下,可以和awk、grep、sort 等实现无缝对接,且支持bam格式文件,可以将bam文件转换为bed文件,因此对于大数据处理来说非常方便。
下图是bedtool的可用操作:


简单的应用:intersectBed -a snps.bed -b genes.bed > out.bed  #查找基因上的snp变异
pairToBed -abam reads.bam -b exons.bed > out.bam #输出比对到外显子上的reads情况
intersectBed -abam reads.bam -b repeats.bed -v |samtools view - > reads.noRepeats.sam #和samtools连用,来输出不和重复序列重叠的特征
bedtools genomecov  -ibam input.sortP.bam  -g genome.txt  #  计算基因组覆盖广度和深度
一些R包如BayesPeak,rtracklayer等也可以用来处理bed 文件。
4)习题

4.1)bed文件的全称是什么
4.2)bed文件有几列?
4.3)bed 文件染色体最左端坐标是从几开始?
4.4)如何设置界面灰度信息?
4.5)如何给track显示不同的颜色
4.6)bed和gff文件有什么区别?
4.7)bed文件默认是以什么分割?
4.8)bed文件如何可视化
4.9)如果你的bed文件太大,你将会如何操作?
4.10)bed文件能够与其它文件进行格式转化?
4.11)查看test.bed文件中有多少条染色体
4.12)找出所有genome feature在染色体中的最左端起始位置
4.13)找出所有genome feature在染色体中的最右端终止的位置
4.14)输出feture在染色体上跨度最大的长度
4.15)计算在1号染色体33546713-50489626位置间有多少feature
4.16)显示最高的灰度值
4.17) 展示所有位于正链上的行
4.18)展示负链上最长的feture特征
4.19)查看用了多少不同的颜色值(即RGB值)
4.20)显示正链上最长的基因所用的颜色
5) 参考资源
http://www.360doc.com/content/18/0329/22/19913717_741376781.shtml
https://blog.csdn.net/herokoking/article/details/79276513
https://genome.ucsc.edu/FAQ/FAQformat.html#format1



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:GEO里的fastq大小与碱基数不成正关系?
下一篇:vcf格式解读及vcftools简介
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-16 07:46 , Processed in 0.042006 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.