搜索
查看: 1977|回复: 5

NCBI的SRA数据结构

[复制链接]

344

主题

448

帖子

1504

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1504
发表于 2017-2-4 11:39:09 | 显示全部楼层 |阅读模式
本帖最后由 ydchen 于 2017-2-4 11:43 编辑

跟GEO类似.
NCBI的SRA(Sequence ReadArchive)数据库是抓们用于存储二代测序的原始数据,包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics. 除了原始序列数据外,SRA现在也存在raw reads在参考基因的aligment information.


NCBI中SRA数据结构的层次关系:Studies,Experiments, Samples,Runs:
Studies是就实验目标而言的,一个study 可能包含多个experiment.
Experiments包含了样本,DNA source, 测序平台,数据处理等信息。一个experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads.

SRA数据库用不同的前缀加以区分:ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。




如果要下载每个study对应的runs的所有数据,我们需要下载安装SRA Toolkit!
链接地址http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
SRA toolkit常用命令的说明文档见http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

这里我们需要使用prefetch命令进行下载
$prefetch SRR776503  SRR776505  SRR776506

下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。

图片我懒得上传了!请自己试用一下SRA toolkit!!!!

Sra子文件夹中的.sra文件就是对应的runs文件。
‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前,我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :
$fastq-dump SRR776503.sra


不过我还是喜欢群主博客里面用wget的下载方式,清晰明了!
比如:http://www.bio-info-trainee.com/2257.html

下载地址很容易获取啦!
[Shell] 纯文本查看 复制代码
for ((i=204;i<=209;i++)) ;do wget [url=ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620]ftp://ftp-trace.ncbi.nlm.nih.gov ... 17/SRP017311/SRR620[/url]$i/SRR620$i.sra;done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump –split-3 $id;done










上一篇:SAMtools, GATK, glftools and Atlas2找变异的区别
下一篇:数据标准化的原因及方法
回复

使用道具 举报

0

主题

2

帖子

34

积分

新手上路

Rank: 1

积分
34
发表于 2017-2-10 17:43:57 | 显示全部楼层
小伙儿,总结的非常好, print  “棒棒哒!”*32
回复 支持 反对

使用道具 举报

7

主题

25

帖子

311

积分

版主

Rank: 7Rank: 7Rank: 7

积分
311
发表于 2017-3-18 21:45:35 | 显示全部楼层
代码有问题   --split-3
回复 支持 反对

使用道具 举报

344

主题

448

帖子

1504

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1504
 楼主| 发表于 2017-3-21 09:19:39 | 显示全部楼层
qians 发表于 2017-3-18 21:45
代码有问题   --split-3

呜呜,是群主自己的问题,不是我的问题,我只是一个代码的搬运工
回复 支持 反对

使用道具 举报

0

主题

11

帖子

143

积分

注册会员

Rank: 2

积分
143
发表于 2017-4-17 11:20:33 | 显示全部楼层
ydchen 发表于 2017-3-21 09:19
呜呜,是群主自己的问题,不是我的问题,我只是一个代码的搬运工

是格式的问题吧。
--两个杠在某些文件输出的情况下就是一个杠,在之前别人博客参考别人代码的时候吃过这个亏!幸亏最后我发现两个杠长度不一样,才把问题解决。
楼主搬运辛苦,点个赞。
回复 支持 反对

使用道具 举报

4

主题

45

帖子

281

积分

中级会员

Rank: 3Rank: 3

积分
281
发表于 2017-12-6 14:40:14 | 显示全部楼层
--split-3 针对于paired-end数据
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2017-12-18 18:45 , Processed in 0.163320 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.