搜索
查看: 2517|回复: 3

如何正确的管理文件,进而有效进行生信数据分析

[复制链接]

3

主题

5

帖子

264

积分

中级会员

Rank: 3Rank: 3

积分
264
发表于 2017-8-8 14:51:22 | 显示全部楼层 |阅读模式
本帖最后由 lakeseafly 于 2017-8-8 15:16 编辑

现在很多文章都是关于如何使用生信不同的工具,进行数据分析。但是,学会如何正确管理好你分析中产生的文件也是一件重要的技能。试想一下,如果你有很多数据,在不断的分析过程中你可能会产生很多很多文件,然后有一天你在运行这个项目6个月后,你想重复你第一个月所做的分析。在这样情况下,如果你没有很好的记录下,你当时运行文件的每一步,这将会是一个灾难性的时刻,因为你要花很多时间去思考你当时做了什么,还可能要逐一查看每一个生成的文件,进而推断出当时运行的代码。这是一个很多生信新手都会遇到的问题,因此如何正确的将他们归类管理就变得非常的重要了。

管理我们数据文件有两个最重要的原则。第一,要做到一个不了解你项目的人,可以轻松的通过你的文件夹,了解你所做了什么,为什么要这样做。第二,记住,你现在做的每一个分析步骤,你将来都有可能会重复再做一次。我们可以通过管理文件和记录达成这两条原则。

文件夹的管理:

可以参考“A Quick Guide to Organizing Computational Biology Projects” 这篇文章所发表的结构。在一个项目中,根据这幅图并适当修改,我们可以将所需的文件分成五大块。第一数据data,储存你所用的所有数据。第二结果results,存储你所做所有分析得到的结果文件。第三编写的代码src,存储你用到的代码。第四tool工具,一些这个项目特定使用到的工具。普遍使用到的,可以放在home/biosoft的文件夹里。第五,doc文件,存放你发表paper所用到的图和表。文献中作者,提议我们可以使用按时间顺序来命名下层文件夹来管理我们所生成的文件。个人觉得可以在此基础上再添加一些具体的分析信息,例如2009-01-23_Mapping。


代码记录:

现在有很多记录的软件可以用来记录我们分析所用到的代码和参数,这里推荐使用Jupyter notebooks。http://jupyter.org 推荐的原因,不但可以记录日常的所用的代码,还可以分享你所得到的分析结果。另外Jupyter notebooks,还有内置的RStudio or IPython, 你可以一边写代码,一边检验修改他。

总结:

在实验室中,我们有时候再重复你所做的实验。但是,在生物信息的分析中,如果我们掌握好记录和管理文件的技巧,重复数据分析再简单不过了。

引用文章:
Noble, W. S. (2009). A quick guide to organizing computational biology projects. PLoS computational biology, 5(7), e1000424.


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:转录组作业2:读文章拿到测序数据
下一篇:omim数据库数据如何下载