|

楼主 |
发表于 2018-12-19 15:27:02
|
显示全部楼层
然后我找到了生信菜鸟团里发的一文。http://www.bio-info-trainee.com/1586.html。不知可否帮忙仔细看看帮忙把这个代码完善详细一点。
用oligo包来读取affymetix的基因表达芯片数据-CEL格式数据
Posted on 2016年4月23日
前面讲到affy处理的芯片平台是有限的,一般是hgu 95系列和133系列,[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array这个平台虽然也是affymetrix公司的,但是affy包就无法处理 了,这时候就需要oligo包了!
oligo包是R语言的bioconductor系列包的一个,就一个功能,读取affymetix的基因表达芯片数据-CEL格式数据,处理成表达矩阵!!!
同理,我们也是要下载原始数据:一个例子:GSE48452
下载之后,解压到指定目录,就可以直接用oligo包啦!
geneCELs=list.celfiles('/path/GSE48452/cel_files/',listGzipped=T,full.name=T)
#用全路径,一般cel文件也是压缩包形式,没必要解压
affyGeneFS <- read.celfiles(geneCELs) ##读取cel文件
geneCore <- rma(affyGeneFS, target = "core") ##这一步是normalization,会比较耗时
genePS <- rma(affyGeneFS, target = "probeset")
#两种normlization的方法,##一般我们会选择transcript相关的
## 这个芯片平台还需要自己把探针ID赋值给表达矩阵
featureData(genePS) <- getNetAffx(genePS, "probeset")
featureData(geneCore) <- getNetAffx(geneCore, "transcript")
## 探针ID还需要注释到基因ID,这里就不讲了!
处理之后得到的表达矩阵应该是与GEO官网的一致,大家可以自己对照检查一下:
ftp://ftp.ncbi.nlm.nih.gov/geo/s ... eries_matrix.txt.gz |
|