搜索
查看: 2233|回复: 1

关于数据校验及备份存放的思考

[复制链接]

58

主题

103

帖子

756

积分

版主

Rank: 7Rank: 7Rank: 7

积分
756
QQ
发表于 2017-6-14 18:56:00 | 显示全部楼层 |阅读模式
使用md5来验证网络文件传输的完整性

在Linux或Unix上,md5sum是用来计算和校验文件报文摘要的工具程序。一般来说,安装了Linux后,就会有md5sum这个工具,直接在命令行终端直接运行。

  • 命令格式
      md5sum [OPTION]… [FILE]…
  • 命令选项
  • -b --binary :把输入文件作为二进制文件看待。
  • -t --text :把输入的文件作为文本文件看待(默认)。
  • -c --check :用来从文件中读取md5信息检查文件的一致性。(不细说了参见info)
  • --status :这个选项和check一起使用,在check的时候,不输出,而是根据返回值表示检查结果。
  • -w --warn :在check的时候,检查输入的md5信息又没有非法的行,如果有则输出相应信息。

e1d192ea-48cd-40eb-863f-4b196b992d83.png
例如从ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/上下载以上nr和nt库,则可以将md5文件一起下载下来后,使用代码:md5sum -c nt.gz.md5进行校验。
662b6779-0edf-4d91-bbfe-d8a2492b0f62.png
NCBI上这个md5文件我在今天之前一直不知道是干什么用的,原来是用来检查下载数据的完整性的。

高通量数据的压缩

FASTQ 文件一般用典型的压缩工具Gzip和bzip2来完成,另外也有专门用于fastq文件的压缩工具,例如DSRC2 、FQC5、Fqzcomp、Fastqz6、Slimfastq、LFQC7等。都说是要压缩fastq数据,DSRC2这个工具似乎推荐的人比较多,但对于为什么要压缩,其好处是什么呢?(减少存储空间么?)
87b27eda-0690-4927-a2fd-cc35e0029c2a.png

be69c9c3-235f-4bd0-ada1-19e3ad2a9023.png

数据存放

每个样品数据使用gzip(或DSRC等相应的压缩工具)以及md5sum将文件压缩备份,将其md5信息及实验信息写在readme文件。
a5edca5c-d1db-4cba-ad9a-d7b337d4430c.png dce8e97d-107d-4be5-9d8e-98135c13ea4e.jpg

参考资料

comparison of highthroughput sequencing data compression tools Nature Methods 13, 1005–1008 (2016) doi:10.1038/nmeth.4037
3.4 软件安装、数据存放、分析流程编写规范





上一篇:【好书分享】生信技能学习指南
下一篇:GenomicRanges - seqinfo
回复

使用道具 举报

2

主题

41

帖子

387

积分

中级会员

Rank: 3Rank: 3

积分
387
发表于 2017-6-15 00:13:56 | 显示全部楼层
赞一个!
压缩文件主要是为了节约空间
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-14 14:17 , Processed in 0.026942 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.