搜索
查看: 451|回复: 0

[annotation] GEOquery

[复制链接]

29

主题

29

帖子

149

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
149
发表于 2018-9-27 15:00:56 | 显示全部楼层 |阅读模式
因为之前已写过GEO芯片的详细处理,这里主要对GEO数据库进行介绍,及GEOquery 的简单使用

1)介绍
来自NCBI的Gene Expression Omnibus(GEO)作为各种高通量实验数据的公共存储库。 这些数据包括基于单通道和双通道微阵列的实验,测量mRNA,基因组DNA和蛋白质丰度;以及非阵列技术,如基因表达系列分析(SAGE)和质谱蛋白质组学数据。
在GEO最基本的组织级别中,用户可以提供四种实体类型:平台,样本,系列和GEO数据集。

1.1 平台(platforms):平台记录描述阵列上的元件列表(例如,cDNA,寡核苷酸探针组,ORF,抗体)或可在该实验中检测和定量的元件列表(例如,SAGE标签,肽)。 每个平台记录都分配有唯一且稳定的GEO登录号(GPLxxx)。 平台可以引用多个提交者提交的许多样本。

1.2  样品(samples):样品记录描述了处理单个样品的条件,它经历的操作以及从中得到的每个元素的丰度测量。 每个样品记录都分配有唯一且稳定的GEO登录(GSMxxx)。 Sample实体必须仅引用一个Platform,并且可以包含在多个Series中。

1.3 系列(Series record):系列记录定义了一组被认为属于组的相关样本,样本如何相关,以及它们是否以及如何排序。 系列提供了整个实验的焦点和描述。 系列记录还可能包含描述提取数据,摘要结论或分析的表格。 每个系列记录都分配有唯一且稳定的GEO登记号(GSExxx)。

1.4  DataSet(数据集)
GEO DataSet(GDSxxx)是GEO样本数据的精选集合。 GDS记录代表了一系列具有生物学和统计学意义的GEO样本,构成了GEO数据显示和分析工具套件的基础。 GDS中的样本指的是同一平台,即它们共享一组共同的探测元素。 假设GDS中每个样本的值测量值以等效方式计算,即背景处理和标准化等考虑因素在整个数据集中是一致的。 通过GDS子集提供反映实验设计的信息。

2)简单使用GEO主要有2个函数,其他函数用处应该不大
2.1 getGEO:Get a GEO object from NCBI or file
[Python] 纯文本查看 复制代码
library(GEOquery)
gse <- getGEO('GSE10', destdir=".")
gse[[1]]
raw_exprSet=exprs(gse[[1]]) #原始表达矩阵
pdata=(pData(gse[[1]]))    #临床信息

2.2  getGEOSuppFiles:Get Supplemental Files from GEO
[Python] 纯文本查看 复制代码
a <- getGEOSuppFiles('GSM1137', fetch_files = FALSE)
a            #是CEL的url信息





回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-2-21 22:51 , Processed in 0.035986 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.