搜索
查看: 2442|回复: 2

[mRNA-seq] 转录组作业(二)读文章下数据

[复制链接]

11

主题

22

帖子

330

积分

中级会员

Rank: 3Rank: 3

积分
330
发表于 2017-10-18 23:28:33 | 显示全部楼层 |阅读模式
1.本次作业是读文章下载数据,文章是发表在NC上的一篇文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034。看文章可知道:

可以知道文章有RIP_seq和RNA_seq两种数据,在NCBI中搜索GSE81916,点击进入BioProject中得知项目号为PRJNA323422,
https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA323422 ##
可获知下面界面

轻松知道我们要下载的RNA Seq对应的SRR号。在GEO数据库中搜索:GSE81916

我们知道其实它的公共部分都是ftp://ftp-trace.ncbi.nlm.nih.gov ... RP/SRP075/SRP075747
然后我们要下载的数据是:
SRR3589956
SRR3589958
SRR3589957
SRR3589959
SRR3589960
SRR3589961
SRR3589962。
2.下载方法:
我目前掌握的方法,比较简单适合小白。
2.1 linux下通过sratoolkit工具中的prefetch命令下载
但是看了帖子都说不支持这个下载,因为容易废掉。
方法:将路径添加到环境变量里面去:
我上面下载的sratoolkit是放在/mnt/d/Software/Biosoft/sratoolkit里面去的。
cd ~
vim ~/.bashrc


#最后一行有点看不清楚:
export PATH="/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/binPATH"
source ~/.bashrc

用prefetch下载#这里很有可能出现缺少perl模块的问题:可以按照
http://www.bio-info-trainee.com/2451.html 方法解决
for i in `seq 48 62`;
do   
    prefetch SRR35899${i}
done


下载后会在你的home目录下存了一个默认的文件夹。
ls ~/ncbi
find ~/ncbi


2.2  通过axel 下载数据
##axel 的安装
sudo apt-get insatll axel
##我们可以通过一个简单的循环命令下载这7个数据文件




然后可以看到我的下载速度是:

还是很慢的,基本上我一个晚上就在下载数据了,但是作为小白没有出现bug已经谢天谢地了。哈哈 我先下载了三个,后面等到中午睡觉的时候让它慢慢下载。觉得自己很机智。

3.GEO/SRA数据库的存放格式
NCBI的SRA(Sequence ReadArchive)数据库是抓们用于存储二代测序的原始数据,包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics. 除了原始序列数据外,SRA现在也存在raw reads在参考基因的aligment information.
ftp://ftp-trace.ncbi.nlm.nih.gov ... 9956/SRR3589956.sra  来分别说明代表的意思   

  • 所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
  • reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
  • ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.(NCBI中SRA数据结构的层次关系:Studies,Experiments, Samples,Runs:)
  • sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。
4.作业几乎借鉴了所有的优秀的作业,后面自己会学markdown来更好的排版。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:生物信息学
下一篇:用mysql的load data infile直接把普通文档写入到数据库里面
回复

使用道具 举报

11

主题

22

帖子

330

积分

中级会员

Rank: 3Rank: 3

积分
330
 楼主| 发表于 2017-10-18 23:30:04 | 显示全部楼层
本帖最后由 yohahah 于 2017-10-18 23:31 编辑


export PATH="/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/binPATH"

回复 支持 反对

使用道具 举报

4

主题

56

帖子

563

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
563
发表于 2017-10-19 09:23:09 | 显示全部楼层
很机智,赞
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-20 07:27 , Processed in 0.030110 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.