搜索
查看: 5965|回复: 0

bed文件格式解读

[复制链接]

29

主题

29

帖子

149

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
149
发表于 2018-8-19 15:14:08 | 显示全部楼层 |阅读模式
1)BED文件
BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单条数据的在注释上一致。

bed

bed


BED文件结构:
-------------------------------------------------------------必须有以下3列------------------------------------------------------------------------
    chrom :即染色体号
    chromStart :即feature在染色体上起始位置 。在染色体上最左端坐标是0
    chromEnd :即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0,  chromEnd=100, 跨度为 0-99.
----------------------------------------------------------------可选9列-------------------------------------------------------------------------------
    name :feature的名字 ,在基因组浏览器左边显示;
    score :在基因组浏览器中显示的灰度设定,值介于0-1000;
     

灰度

灰度

    strand :定义链的方向,''+” 或者”-”
    thickStart :起始位置(例如,基因起始编码位置)
    thickEnd :终止位置(例如:基因终止编码位置) 
    itemRGB :是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为'On”, 这个RBG值将决定数据的显示的颜色。
    blockCount :BED行中的block数目,也就是外显子数目
    blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
    blockStarts :用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应
2)bed和gff之间的关系
前面已经讲过GFF格式,用UCSC Genome Browser可以将两者进行可视化比较。 Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1;GFF中起始坐标是1而结束坐标至少是1。
bedtools是一款可以用来处理bed文件的一种常用工具。例如:
bedtools intersect -a input1.bed -b input2.bed      #可以用来求交集
bedtools genomecov  -ibam input.sortP.bam  -g genome.txt  #  计算基因组覆盖广度和深度
一些R包如BayesPeak,rtracklayer等也可以用来处理bed 文件。
3bedtools介绍及简单的应用
比较基因组不同区域是基因组研究中一个常见的问题。bedtools是一款用C++编写的小巧且灵活的软件来处理这些复杂的问题,可以用来比较、操作、注释bed和gff文件中的genomic features。它设计主要是在linux环境下,可以和awk、grep、sort 等实现无缝对接,且支持bam格式文件,可以将bam文件转换为bed文件,因此对于大数据处理来说非常方便。
下图是bedtool的可用操作:

bedtools的应用

bedtools的应用

简单的应用:intersectBed -a snps.bed -b genes.bed > out.bed  #查找基因上的snp变异
pairToBed -abam reads.bam -b exons.bed > out.bam #输出比对到外显子上的reads情况
intersectBed -abam reads.bam -b repeats.bed -v |samtools view - > reads.noRepeats.sam #和samtools连用,来输出不和重复序列重叠的特征
bedtools genomecov  -ibam input.sortP.bam  -g genome.txt  #  计算基因组覆盖广度和深度
一些R包如BayesPeak,rtracklayer等也可以用来处理bed 文件。
4)习题
test.zip (28.58 KB, 下载次数: 154)



上一篇:GEO里的fastq大小与碱基数不成正关系?
下一篇:vcf格式解读及vcftools简介
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-3-28 22:47 , Processed in 0.026129 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.