搜索
查看: 10279|回复: 1

表达芯片分析 [第二讲:从GEO下载数据得到表达量矩阵]

[复制链接]

13

主题

33

帖子

243

积分

版主

Rank: 7Rank: 7Rank: 7

积分
243
发表于 2016-12-14 14:27:09 | 显示全部楼层 |阅读模式
第二讲:从GEO下载数据得到表达量矩阵

直接连接GEO数据库根据GSE study ID号来下载表达量:https://github.com/jmzeng1314/humanid/blob/master/R/downGSE.R
GEO下载得到的是ExpressionSet 对象: [url]https://github.com/bioconductor-china/basic/blob/master/ExpressionSet.md[/url]
ExpressionSet 对象简单讲解   
有很多方法可以作用于对象:R一大利器之对象的操作函数查询
几个实例对象: R语言里面的一个数据集ALL(Acute Lymphoblastic Leukemia)简介

library(CLL); data(sCLLex)
library(ALL);data(ALL)

原始数据处理:
下面的表格参考自:http://www.oceanridgebio.com/affymetrix-gene-chip.html  
下面涉及到一个是否过滤未表达基因的问题,

如果是旧版的affymetrix芯片,用affy包,我曾经写过教程:用affy包读取affymetix的基因表达芯片数据-CEL格式数据
library(affy)
#perform mas5 normalization
affy_data = ReadAffy(celfile.path=dir_cels)
eset.mas5 = mas5(affy_data)
exprSet.nologs = exprs(eset.mas5)
exprSet = log(exprSet.nologs, 2)  #transform to Log_2 if needed

library(affy)
data <- ReadAffy(celfile.path=dir_cels)
eset <- rma(data)
write.exprs(eset,file="data.txt")


如果是新版的,比如 Human Gene 1.0 St Array  ,用oligo,我曾经写过教程:用oligo包来读取affymetix的基因表达芯片数据-CEL格式数据
library(oligo)
celFiles <- list.celfiles()
affyRaw <- read.celfiles(celFiles)
library(pd.mogene.2.0.st)  ## 根据芯片平台来载入芯片设计包,没办法自动选择,跟芯片探针包不一样:mogene20sttranscriptcluster.db
eset <- rma(affyRaw)
write.exprs(eset,file="data.txt")


还有更新的芯片版本,比如HTA1.0或者HTA2.0,我暂时还没有处理过



如果illumina的: 用lumi包来处理illumina的bead系列表达芯片

参考:http://manuals.bioinformatics.ucr.edu/home/R_BioCondManual
http://homer.salk.edu/homer/basicTutorial/affymetrix.html


https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE11072  2009-gastric cancer SBC Human 16K cDNA Microarray
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872 2015-melanoma-vemurafenib HuGene-1_0-st
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673 2015-hub-gene-mcode-retinoblastoma  HuGene-1_0-st
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE22863  2011-NSCLC HuGene-1_0-st
GSE622221, GSE4180414, GSE5140122 A total of 117 samples (54 cases and 63 controls) Affymetrix Human Genome U133 Plus 2.0 Array  2015-HCC
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21815  2016-CRC Agilent-014850 Whole Human Genome Microarray 4x44K
如果只看表达量,CCLE数据库一大堆:对CCLE数据库可以做的分析





上一篇:表达芯片分析[第一讲:GEO,表达芯片与R]
下一篇:芯片数据分析 【第三讲:对表达量矩阵用GSEA软件做分析 】
回复

使用道具 举报

1

主题

11

帖子

248

积分

中级会员

Rank: 3Rank: 3

积分
248
发表于 2017-4-27 20:40:19 | 显示全部楼层
有Agilent芯片处理的流程吗?GEO下载的TXT用哪个包?谢谢了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-17 19:26 , Processed in 0.033452 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.