搜索
查看: 4875|回复: 1

生物信息学格式学习笔记

[复制链接]

13

主题

28

帖子

218

积分

中级会员

Rank: 3Rank: 3

积分
218
发表于 2017-3-4 05:32:39 | 显示全部楼层 |阅读模式
生物信息学中常见的格式主要有Fasta,Fastq,SRA,GFF,GTF,SAM,BAM,BED,BedGraph,Wig,BigWig,VCF等,下面我对各个格式的学习笔记整理如下

Fasta,Fastq


fasta格式是最基本的表示序列信息的格式。是一种文本格式,一般以后缀.fa或者.fasta
主要由两部分组成:
第一部分 以>符号开头,是序列的定义行,后面跟着序列的名称或者标识,然后空格后是序列的描述信息
[Python] 纯文本查看 复制代码
>gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNA
AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTA
TTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCT
ATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCAT



如上面gi|187608668|ref|NM_001043364.2|为该序列名称, Bombyx mori moricin (Mor), mRNA则是描述信息,所有来自NCBI的都有一个gi号,序列名称里的其他内容可以参考这个网站http://boyun.sh.cn/bio/?p=1192


第二部分就是序列,可以使碱基序列也可以是氨基酸序列


Fastq格式同样是以文本形式来储存序列信息的格式,后缀通常位.fq或者.fastq,最早有Sanger机构开发,目前大多数NGS高通量测序的标准下机格式就是FASTQ。其序列以及质量信息都是使用一个ASCII字符标示
fastq格式文件中一个完整的单元分为四行,每行的含义如下:
第一行: @开头,内容同fasta的描述行类似
第二行:具体的碱基序列
第三行:以+开头,后面的内容可以和第一行类似,也什么都没有只留+
第四行:以ASCII字符集(分数)编码来表示对应碱基的测序质量详细说一下!Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量,既-10lgP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在第四行中该碱基对应的质量代表值即为“?”,ASCii参考如图。一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。以上是sanger中心采用记录read测序质量的方法,Illumina起初没有完全依照sanger中心的方法来定义测序质量,而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

同样在NCBI里下载的fastq一般以SRR开头,这个后面在SRA部分详解。

也可以使用FASTX-Toolkit,附软件下载地址http://hannonlab.cshl.edu/fastx_toolkit/index.html

SRA
sra是NCBI推出的存储高通量数据的格式,只是一个压缩数据的标准,没有软件能够直接分析SRA格式的数据,所有一般我们要把SRA格式的数据转换为FASTQ,可以使用SRAtoolkit的fastq-dump,可以在ncbi官方网站下载,这里面包含一系列的转换工具。下载地址https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=std

具体用法
单端测序
fastq-dump XXX.sra
双端测序
fastq-dump --split-files XXX.sra
转化成fasta
fastq-dump --fasta XXX.sra
454数据转化
sff-dump XX.SRA 454数据基本没见过,转化成的SFF文件是二进制可以转化位fasta文件sffinfo软件即可

SAM格式
在生物信息学中尤其是高通量测序数据分析中,大部分的操作都是在实现短片段序列与参考序列的比对(mapping),比对的结果输出往往就是SAM格式(Sequence Alignment/Map),可以参考https://samtools.github.io/hts-specs/SAMv1.pdf,里的解释
SAM文件由两部分组成:头部区和主体区

后面更新










本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:推荐一本好书——Application of Clinical Bioinformatics
下一篇:数据测量水平(Measurement Level)可以分为四类
回复

使用道具 举报

0

主题

29

帖子

259

积分

中级会员

Rank: 3Rank: 3

积分
259
发表于 2017-3-8 09:41:55 | 显示全部楼层
楼主加油!!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 00:11 , Processed in 0.035193 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.