搜索
查看: 6319|回复: 5

一个GSE里面有3种芯片平台数据该如何处理呢?

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2016-11-10 14:40:14 | 显示全部楼层 |阅读模式
我想搜索一个PRKAA1这个基因表达显著性改变了的研究,在GEO里面看到了GSE7382,但是它这个研究涉及了3种芯片,统一用的是affymetrix的表达芯片
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE7382
根据搜索结果,我知道是U133B这个平台的 240349_at 探针代表的 PRKAA1这个基因 改变非常显著,如何分析这个公共数据呢?
这个很简单啦~
只需要下载GEO数据到R里面,然后提取这个U133B平台的表达矩阵,再做差异分析就好啦!

实验用了 doxycycline 处理MCF7细胞系!

多西环素也称为“强力霉素”“伟霸霉素”“脱氧土霉素”或“去氧土霉素”,是四环素类抗生素的一种。多西环素能与tRNA结合,从而达到抑菌的效果,通常用于治疗各种感染。 多西环素是20世纪60年代由辉瑞公司发明并进行临床改进的一种半合成四环素类药,“强力霉素”是它的商品名。


The nuclear LIM-only protein LMO4 is upregulated in breast cancer, especially estrogen receptor negative tumors, and its overexpression in mice leads to hyperplasia and tumor formation.
Here, we show that deletion of LMO4 in the mammary glands of mice leads to impaired lobuloalveolar development due to decreased epithelial cell proliferation. With the goal of discovering potential LMO4-target genes, we also developed a conditional expression system in MCF-7 cells for both LMO4 and a dominant negative (DN) form of its co-regulator, Co-factor of LIM domains (Clim/Ldb/Nli). We then used DNA microarrays to identify genes responsive to LMO4 and DN-Clim upregulation. One of the genes common to both datasets was BMP7, whose expression is also significantly correlated with LMO4 transcript levels in a large dataset of human breast cancers, suggesting that BMP7 is a bona fide target gene of LMO4 in breast cancer. Inhibition of BMP7 partially blocks the effects of LMO4 on apoptosis, indicating that BMP7 mediates at least some functions of LMO4. Gene transfer studies show that LMO4 regulates the BMP7 promoter, and chromatin immunoprecipitation studies show that LMO4 and its co-factor Clim2 are recruited to the BMP7 promoter. Furthermore, we demonstrate that HDAC2 recruitment to the BMP7 promoter is inhibited by upregulation of LMO4 and that HDAC2 knockdown upregulates the promoter. These studies suggest a novel mechanism of action for LMO4: LMO4, Clim2 and HDAC2 are part of a transcriptional complex, and increased LMO4 levels can disrupt the complex, leading to decreased HDAC2 recruitment and increased promoter activity.


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:有关比对软件对于reads多重比对上基因组的问题
下一篇:R绘制箱线图
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2016-11-10 14:55:39 | 显示全部楼层
需要下载GEO的数据,然后提取U133B平台的数据,然后分组,然后找我们需要的基因的表达情况。
代码很简单!
[Python] 纯文本查看 复制代码
rm(list=ls())
library(GEOquery)
library(limma) 
library(annotate)
library(hgu133b.db)
library(hgu133a.db)
library(hgu133plus2.db)
GSE7382 <- getGEO('GSE7382', destdir=".",getGPL = F) 
 
GPL96 <- GSE7382[[2]] 
GPL97 <- GSE7382[[3]] 
GPL570<- GSE7382[[1]] 
exprSet=exprs(GPL97)
pData=pData(GPL97)
library(hgu95av2.db)
PRKAA1exprSet=exprSet['240349_at',]
barplot(PRKAA1exprSet,las=2)

瞎了眼睛的都能看出来,这个基因在这两个group里面差异表达了,显著的差异表达了~~~~~

事实上这个探针并非对应着PRKAA1,而是240349_at, AV693202, PRKAA2, protein kinase, AMP-activated, alpha 2 catalytic subunit.
画出来的图可以跟标准图做比较! https://www.ncbi.nlm.nih.gov/geo ... D=GDS2788:240349_at


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 1 反对 0

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2016-11-10 15:01:24 | 显示全部楼层
如果想做差异分析,就更简单了!~
[Python] 纯文本查看 复制代码
exprSet=log2(exprSet)
group_list=unlist(lapply(as.character(pData$title),function(x) strsplit(x,'\\s')[[1]][3]))
design=model.matrix(~factor(group_list))
fit=lmFit(exprSet,design)
fit=eBayes(fit)
options(digits = 4)
topTable(fit,coef=2,adjust='BH') 

有什么问题请在下面跟帖,我会一一回答!
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 1 反对 0

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2016-11-10 15:03:27 | 显示全部楼层
当然这样得到的只能说是差异基因的探针,要想注释到基因ID,需要用到我们前面家族的那几个包!
[Python] 纯文本查看 复制代码
platformDB='hgu133b.db'
library(platformDB, character.only=TRUE)
probeset <- rownames(DEG)
#EGID <- as.numeric(lookUp(probeset, platformDB, "ENTREZID"))
SYMBOL <-  lookUp(probeset, platformDB, "SYMBOL")
DEG$symbol = SYMBOL
DEG[SYMBOL=='PRKAA2',]


很容易就可以看到前面的 PRKAA2 其实对应着4个探针,其中240349_at非常明显的差异表达了!
> DEG[SYMBOL=='PRKAA2',]
            logFC AveExpr       t   P.Value adj.P.Val       B symbol
240349_at -2.6771   5.309 -8.0535 0.0001881    0.2840  0.1371 PRKAA2
227892_at -0.7062   5.632 -1.9203 0.1028309    0.9963 -4.2321 PRKAA2
238441_at -0.7265   2.345 -0.7237 0.4962595    0.9963 -5.4090 PRKAA2
238489_at -0.2700   4.138 -0.4211 0.6882154    0.9973 -5.5763 PRKAA2



你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2016-11-10 15:03:55 | 显示全部楼层
前面已经把探针的ID注释到基因名啦!很明显我们应该根据DEG的结果来挑选差异基因咯~
这个过程是纯粹乱来的,我们可以选择P<0.05 或者p.adj<0.05 或者0.01,这东西都是自己调整的,什么时候满意,就选择好了差异基因啦~~~
当然,有人喜欢再加上一个foldchange的挑选标准,可以是变化倍数大于1.2或者1.5或者2,也是随意啦,你高兴就好,还是那句话,什么时候挑选到了你满意的差异基因,你就成功啦!!!

我比较喜欢用下面这个方法来挑选差异基因列表:FC_cutoff = mean(abs(DEG$logFC))+2*sd(abs(DEG$logFC))
sig_DEG= DEG[abs(DEG$logFC)>FC_cutoff & DEG$P.Value<0.05,]

得到一般就是400~1000个基因,不多也不少,正好去做富集,我也不知道对不对,但是无所谓,芯片本身就没有标准。

得到了差异基因的list之后,大家肯定就想要做过GO/KEGG的富集分析咯~
也是非常的简单。


你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

5

主题

18

帖子

142

积分

注册会员

Rank: 2

积分
142
发表于 2016-11-10 15:37:03 | 显示全部楼层
GPL96 <- GSE7382[[2]]
GPL97 <- GSE7382[[3]]
GPL570<- GSE7382[[1]] 这次应该在下面啦!群主可以解释一下这儿吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-16 09:15 , Processed in 0.052381 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.