搜索
查看: 5282|回复: 1

芯片数据分析 【第三讲:对表达量矩阵用GSEA软件做分析 】

[复制链接]

13

主题

33

帖子

243

积分

版主

Rank: 7Rank: 7Rank: 7

积分
243
发表于 2016-12-14 14:32:39 | 显示全部楼层 |阅读模式
第三讲:对表达量矩阵用GSEA软件做分析


如果纯粹说用法,非常简单:
用GSEA来做基因集富集分析
批量运行GSEA,命令行版本
如果要讲原理:
首先对每个样本里面的基因的表达值在样本内部进行排序,本质是是根据该基因在两个group之间的差异来排序!
但是差异如何量化,就有多种方法了,可以是Signal2Noise 值,或者是Ttest值,或者是fold change,logFC
默认的,GSEA会根据signal-to-noise metric 来对基因进行排序。但是也可以选择其它metric
如果是自己已经排序好了的基因,也可以直接拿来做GSEA分析了,见: GSEAPreranked Page in the GSEA User Guide.
如果是affymetrix的表达矩阵,不需要提前进行Present/Marginal/Absent Calls. 来过滤掉一些表达探针,GSEA需要各种情况的表达数据。
如果是gct and pcl 的表达矩阵,缺失值空着就好了。但是如果缺失值太多了,这样在计算signal-to-noise的时候,不同group的样本数就不一致了,mean和sd都会变好,最好是避免这样的情况,可以考虑进行插值,或者过滤掉这样的探针。
不需要提前过滤掉低表达量的探针或者低variance的探针。它们都会在我们算好的 ranked gene list 的中间部分,增强我们的统计效应。完全不用担心数据量计算时间的问题。
如果要想计算Signal2Noise ,每个group必须要有3个及以上的samples
除了两个group之间的比较可以做gsea之外,还可以针对连续性的phenotypes和time-course数据。
参考:http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html




# http://software.broadinstitute.org/gsea/msigdb/collections.jsp
file=$(basename $1 )
sample=${file%%.*}
echo $file $sample
java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.GseaPreranked -collapse false \
-rnk $1  -rpt_label ${sample}_hallmark  -out 'report' \
-gmx ~/biosoft/GSEA/h.all.v5.2.symbols.gmt

java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.GseaPreranked -collapse false \
-rnk $1   -rpt_label ${sample}_c2_cp  -out 'report' \
-gmx ~/biosoft/GSEA/c2.cp.v5.2.symbols.gmt


java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.GseaPreranked -collapse false \
-rnk $1  -rpt_label ${sample}_c6  -out 'report' \
-gmx ~/biosoft/GSEA/c6.all.v5.2.symbols.gmt  

java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.GseaPreranked -collapse false \
-rnk $1  -rpt_label ${sample}_c7  -out 'report' \
-gmx ~/biosoft/GSEA/c7.all.v5.2.symbols.gmt


# http://software.broadinstitute.org/gsea/msigdb/collections.jsp
# -res P53_hgu95av2.gct  -cls P53.cls   ##-chip  chip/HG_U95Av2.chip
file=$(basename $1 )
sample=${file%%.*}
echo $file $sample
java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.Gsea -collapse false \
-res $1  -cls $2   -rpt_label ${sample}_hallmark  -out 'report' \
-gmx ~/biosoft/GSEA/h.all.v5.2.symbols.gmt

java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.Gsea -collapse false \
-res $1  -cls $2   -rpt_label ${sample}_c2_cp  -out 'report' \
-gmx ~/biosoft/GSEA/c2.cp.v5.2.symbols.gmt

java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.Gsea -collapse false \
-res $1  -cls $2    -rpt_label ${sample}_c6  -out 'report' \
-gmx ~/biosoft/GSEA/c6.all.v5.2.symbols.gmt  

java -Xmx1024m  -cp ~/biosoft/GSEA/gsea2-2.2.3.jar  xtools.gsea.Gsea -collapse false \
-res $1  -cls $2   -rpt_label ${sample}_c7  -out 'report' \
-gmx ~/biosoft/GSEAc7.all.v5.2.symbols.gmt






上一篇:表达芯片分析 [第二讲:从GEO下载数据得到表达量矩阵]
下一篇:芯片数据分析【第四讲:根据分组信息做差异分析】
回复

使用道具 举报

10

主题

52

帖子

559

积分

版主

Rank: 7Rank: 7Rank: 7

积分
559
QQ
发表于 2017-3-21 21:25:01 | 显示全部楼层
本帖最后由 旭日早升 于 2017-3-21 22:01 编辑

这个xtools.gsea.Gsea和xtools.gsea.GseaPreranked是什么,我跑的时候总是报错,要怎么设置。知道了,原来是使用的方法。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 00:12 , Processed in 0.035487 second(s), 32 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.