这个包是可以用来在GEO的网站下载原始数据和归一化数据
## Dependencies
This document has the following dependencies:
[AppleScript] 纯文本查看 复制代码 ```{r dependencies, warning=FALSE, message=FALSE}
library(GEOquery)
```
Use the following commands to install these packages in R.
```{r biocLite, eval=FALSE}
source("http://www.bioconductor.org/biocLite.R")
biocLite(c("GEOquery"))
```
## Corrections
Improvements and corrections to this document can be submitted on its [GitHub](https://github.com/kasperdanielh ... er/Rmd/GEOquery.Rmd) in its [repository](https://github.com/kasperdanielhansen/genbioconductor).
## Overview
NCBI Gene Expression Omnibus (GEO)有很多的高通量公共的基因组数据。这个数据库不是专门用于基因表达数据。也有别的数据
## Other Resources
- The vignette from the [GEOquert webpage](http://bioconductor.org/packages/GEOquery).
- GEO [documentation](http://www.ncbi.nlm.nih.gov/geo/info/overview.html).
## NCBI GEO
NCBI GEO是按照 样本组织分成系列。对于更大的实验,都有SubSeries和SuperSeries。 SuperSeries是一篇论文的所有实验; SuperSeries可以分解为不同技术的SubSeries。例如,看看SuperSeries [GSE19486](http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE19486)。在本文中,他们使用了两个不同的平台(这是一个奇怪的名字;一个平台是一个技术和一个物种的组合)。他们对两个不同因素(NFkB-II和Pol II)进行RNA-seq和ChIP-seq。这导致4个子系列(RNA-seq为2个,ChIP-seq为2个)。
例如[GSE994](http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE994)更简单的设置,其中使用Affymetrix微阵列比较来自当前和以前吸烟者的样品。
提交给NCBI GEO的数据可以是“原始数据”和“处理数据”。让我们关注目前的基因表达数据。 “处理”数据被归一化和定量,通常在基因水平,通常以样品基质的形式提供基因。 “原始”数据可以是从排序读取到微阵列图像文件的任何数据。甚至可能有不同的“原始”数据状态,例如您可能拥有的RNA-seq数据集
- FASTQ文件(原始读取)
- BAM文件(对齐读)
- 基因通过样本表达矩阵(非归一化)
- 基因通过样本表达矩阵(归一化)
对于Affymetrix基因表达微阵列,“row”文件是所谓的CEL文件(Affymetrix发明的文件格式),"processed”数据是在探针组级别进行归一化和量化的数据。
最后,GEO具有系列标识符(如GSE19486)和样本标识符(GSM486297)。注意GSE与GSM的相同。用户几乎总是对给定系列中的所有样品感兴趣,因此起始点是序列标识符,也称为登录号。
## GEOquery
下载 [GSE11675](http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE11675) 6个样本的数据
[AppleScript] 纯文本查看 复制代码 ```{r getData}
eList <- getGEO("GSE11675")
class(eList)
length(eList)
names(eList)
eData <- eList[[1]]
eData
```
该函数返回一个`list`,因为你可能会得到多个SubSeries。 在这种情况下,只有一个,列表元素是一个“ExpressionSet”,可以使用! GEO知道的表型数据包含在“pData” 中; 这里通常有很多不必要的东西:
[AppleScript] 纯文本查看 复制代码 ```{r pData}
names(pData(eData))
```
但是,我们在这里获得的是处理过的数据。 用户经常希望访问更多原始数据。 这在GEO语言中被称为“补充文件”,我们也可以得到这些。
[AppleScript] 纯文本查看 复制代码 ```{r getGEOsupp}
eList2 <- getGEOSuppFiles("GSE11675")
eList2
tarArchive <- rownames(eList2)[1]
tarArchive
```
## Other packages
There are other packages for accessing other online repositories with public data; they include `r Biocpkg("SRAdb")` for the Short Read Archive (SRA) and `r Biocpkg("ArrayExpress")` (ArrayExpress; a similar database to NCBI GEO but hosted at the European Bioinformatics Institute (EBI)).
这是一个文件名的“data.frame”。 单个TAR存档被下载。 您可以使用标准工具扩展TAR achive; 里面有6个CEL文件和6个CHP文件的列表。 然后,您可以使用`r Biocpkg(“affy”)``或`r Biocpkg(“oligo”)`的函数将6个CEL文件读入R中。
也可以使用`r Biocpkg(“GEOquery”)来查询GEO作为数据库(即查找数据集); 更多信息在包装小插页。
##其他packages
还有其他软件包用于访问具有公共数据的其他在线存储库; 它们包括用于短读归档(SRA)的“r Biocpkg(”SRAdb“)”和“BioCPkg(”ArrayExpress“)”(ArrayExpress;与NCBI GEO相似的数据库,但在欧洲生物信息学研究所(EBI)上托管)。
|