搜索
查看: 4902|回复: 0

[mRNA-seq] 绕过root权限,如何使用GFOLD进行差异表达分析一:GFOLD的安...

[复制链接]

33

主题

46

帖子

230

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
230
发表于 2017-2-1 15:45:01 | 显示全部楼层 |阅读模式
注:本文是生信媛微信公众号原创文章
作者:生物女博士
原文链接:http://mp.weixin.qq.com/s/eB45eueM2lXu8TJxdJicVQ

GFOLD 的使用场景

  现在转录组的分析非常非常普遍,一般的生信从业者接触的第一类数据类型可能就是转录组数据分析。转录组分析的灵魂步骤,就是寻找不同的groups的差异表达基因,这一步是差异表达基因功能分析的基础。对于有生物学重复的数据(并且一般的转录组数据都会有生物学重复),我们一般采用一个叫edgeR和DEseq的R包。但是你可能非常不幸,你的老板是一个小农主义思想泛滥的人,舍不得花钱测重复,你拿到了一套没有重复的转录组数据。或者咱们换个说法,你的老板是一个非常稳重的人,在正式测数据之前,先预先测了一批数据没有重复的数据进行一个预分析。这时候edgeR依然可以用,不过需要认为指定一个dispersion值,这样的不同的人就可以有不同的结果,在查阅了很多资料之后呢,大家一致认为没有重复的转录组数据应该用GFOLD软件进行安装。
  好,我们现在知道了分析的方法。但是没有你分析数据的服务器的sudo密码(为了安全起见,只有管理员才有sudo权限。),但是管理员办事又拖拖拉拉迟迟不给装,老板又对催促得非常厉害。你只能试一下在没有权限的的情况下自己装gfold。今天的这篇文章,详细地讲解如何在非root用户安装GFOLD。也希望各位同学能够举一反三,在非root前提下也能够学会安装其他软件。
  好,我们总结一下:
  • 有重复的转录组数据,用的比较多的是DEseq2(负二项分布),edgeR(负二项分布), edgeR(二项分布)。
  • 没有重复转录组数据,普遍推荐使用统计大学的GFOLD。

本文默认读者具有最基本的linux操作指示。比如切换文件夹,新建文件夹,移动文件/文件夹。

二 安装
1.安装GSL.

在安装Gfold之前,必须安装一款基于GNU的数值计算工具。

GSL的官方介绍:http://www.gnu.org/software/gsl/

下载命令:


GSL的非root权限安装方法:
cd /path/where/you/put/software

进入目录以后,可参考 INSTALL 中说明,里面会把遇到的一些常见问题列出方便解决。
对于我们没有root权限的用户,安装必须指定路径,安装到自己的用户环境中。

下边红色字体这一步非常重要!!
等号后边换成你自己的安装路径,之后同样的字符也请自行替换。如果不指定会默认装到系统目录,因为没有写入权限,肯定会出现令人痛苦的Error, 所以要装到自己的制定目录。这一步是一个大坑,大家注意。

./configure --prefix=/YOUR/INSTALL/PATH
make
make check(选做,不运行也完全不影响)
make install


2.安装GFOLD

下载地址:
http://compbio.tongji.edu.cn/~fengjx/GFOLD/gfold.V1.1.2.tar.gz

下载方法:

README里面的安装指南其实也写得比较明白,节选重点如下:

1.To check whether your setting is correct, you can execute the following command in th e terminal

echo $CXXFLAGS

If the output is empty then some steps above are not correctly followed.
If the output is not empty, then the output should be a directory. Check the existence of this directory and make sure that there is a 'gsl' folder in this directory.
2. Compile the program by running command "make". If GSL libraray is not set correctly, errors as the following would occur.
g++ -O3 -Wall -lgsl -lgslcblas -g main.cc -o gfold
In file included from GeneInfo.hpp:29,from main.cc:24:
Utility.hpp:69:36: error: gsl/gsl_statistics_int.h: No such file or directory
Utility.hpp:70:28: error: gsl/gsl_vector.h: No such file or directory
   ...
If it happens, follow step 1 again. If error remains, try the
following comman:
g++ -O3 -Wall -g main.cc -o gfold -lgsl -lgslcblas -I//YOUR/INSTALLED/PATH/include -L/your/installed/path/lib
3. The executable program is "gfold" with documentation in directory "doc"

根据说明书,将如下两句

export CXXFLAGS="-g -O3 -I/YOUR/INSTALLED/PATH/include -L/home/chaody/bin/lib"  
export LD_LIBRARY_PATH="/YOUR/INSTALLED/PATH/lib:"$LD_LIBRARY_PATH

加到home下的.profile文件中。注意:-I 和-L后面没有空格,这也是个坑。
然后source profile
source ~/.profile
直接输入make,回车,此时是报错的,如图:
gfold1.jpg
根据README里的方法,我尝试了

g++ -O3 -Wall -g main.cc -o gfold -lgsl -lgslcblas -I/YOUR/INSTALLED/PATH/include -L/YOUR/INSTALLED/PATH/lib

貌似成功了!因为多了一个可执行的(绿色)gfold文件。

gfold2.jpg
输入

./gfold -h

出现了如下页面。
gfold3.jpg

为了使命令简化,设置环境变量使得只需要输入gfold即可使用该命令:

echo "alias gfold='~/software/gfold.V1.1.2/gfold'" >> ~/.profile
source ~/.profile

OK,安装完毕。

本来想写的更多,无奈篇幅限制。只能写到这。转录组的分析其实也是有很多步骤组成的,比如数据的质控,差异表达分析,mapping软件的比较,如何用ht-seq统计基因的表达量,FPKM的意义以及弊端,对差异表达基因的GO富集分析,KEGG注释等等。都是非常值得写的部分,这会在今后的推文中,详略得当地向大家展示出来。



欢迎到微信公众号订阅我们
生信媛
bio_sxy
sxy.png.jpg





上一篇:linux shell tricks for bioinformatics系列文章之二
下一篇:基因组分析·Circos作图基础(一)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-3-31 10:01 , Processed in 0.025503 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.