搜索
查看: 3211|回复: 0

【直播】我的基因组(九):拿到数据后要做的事情

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-1-28 16:59:43 | 显示全部楼层 |阅读模式
本帖最后由 zckoo007 于 2017-1-28 17:01 编辑

【直播】我的基因组(九):拿到数据后要做的事情

时隔好几个月,因为各种各样的原因数据终于拿到了自己的手上,真是不容易啊!

拿到数据后,第一件要做的事情就是检查数据传输的完整性,然后备份!我拿到的数据如下:


b5e6f43000624a06075518ff1a63796f.jpg


可以看到,公司给了我测序仪的下机数据(raw data)和他们质控后的clean data,这个过程减少了6G的数据量,对应着约90亿bp的碱基,相当于减少了3个人的全基因组数据。具体推算公式见前面的系列直播贴!


首先我把数据拷贝到了我上上周买的2T移动硬盘里面,再拷贝到我工作电脑一份,服务器一份,私人电脑一份,另外一个移动硬盘一份。然后删除了公司寄给我的硬盘里面的数据,再把硬盘寄回给公司,然后监督他们删除我所有的数据。(做这么多就是为了保护隐私,当然这个大前提是我已经确定数据没有问题了。)


检查数据传输的完整性就是md5校验,看看数据在拷贝过程中有没有意外的损坏(这个在之前下载数据的时候我也说过)!一般传输数据之前,会用md5命令来生成各个文件的md5值,就是下面的MD5.txt文件里面的内容,然后传输数据之后,需要自行用md5sum -c MD5.txt 来校验文件里面记录的文件的完整性,如果显示都是OK,说明文件拷贝传输过程是没有问题的!但这个过程会耗费大量的磁盘读写,磁盘读写能力是有限的,所以开多个进程并不能加快这一过程。

94b47dd0117d775a6584a03f34a29cbd.jpg


然后我把公司处理好的bam文件上传到服务器做下游分析,我用的winscp软件把文件传到服务器上的!


7424fc2db491f052d237f985f3faf93f.png


从明天起,我们就开始正式对基因组进行分析啦!欢迎围观!









上一篇:【直播】我的基因组(八):原始测序数据质量报告
下一篇:【直播】我的基因组(十):测序数据质量控制
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-6-1 13:23 , Processed in 0.023495 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.