搜索
查看: 2475|回复: 0

[software] GEOquery

[复制链接]

64

主题

138

帖子

681

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
681
发表于 2017-7-1 08:07:51 | 显示全部楼层 |阅读模式
这个包是可以用来在GEO的网站下载原始数据和归一化数据
## Dependencies

This document has the following dependencies:

[AppleScript] 纯文本查看 复制代码
```{r dependencies, warning=FALSE, message=FALSE}
library(GEOquery)
```

Use the following commands to install these packages in R.

```{r biocLite, eval=FALSE}
source("http://www.bioconductor.org/biocLite.R")
biocLite(c("GEOquery"))
```


## Corrections

Improvements and corrections to this document can be submitted on its [GitHub](https://github.com/kasperdanielh ... er/Rmd/GEOquery.Rmd) in its [repository](https://github.com/kasperdanielhansen/genbioconductor).

## Overview

NCBI Gene Expression Omnibus (GEO)有很多的高通量公共的基因组数据。这个数据库不是专门用于基因表达数据。也有别的数据

## Other Resources

- The vignette from the [GEOquert webpage](http://bioconductor.org/packages/GEOquery).
- GEO [documentation](http://www.ncbi.nlm.nih.gov/geo/info/overview.html).

## NCBI GEO

NCBI GEO是按照 样本组织分成系列。对于更大的实验,都有SubSeries和SuperSeries。 SuperSeries是一篇论文的所有实验; SuperSeries可以分解为不同技术的SubSeries。例如,看看SuperSeries [GSE19486](http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE19486)。在本文中,他们使用了两个不同的平台(这是一个奇怪的名字;一个平台是一个技术和一个物种的组合)。他们对两个不同因素(NFkB-II和Pol II)进行RNA-seq和ChIP-seq。这导致4个子系列(RNA-seq为2个,ChIP-seq为2个)。

例如[GSE994](http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE994)更简单的设置,其中使用Affymetrix微阵列比较来自当前和以前吸烟者的样品。

提交给NCBI GEO的数据可以是“原始数据”和“处理数据”。让我们关注目前的基因表达数据。 “处理”数据被归一化和定量,通常在基因水平,通常以样品基质的形式提供基因。 “原始”数据可以是从排序读取到微阵列图像文件的任何数据。甚至可能有不同的“原始”数据状态,例如您可能拥有的RNA-seq数据集

- FASTQ文件(原始读取)
- BAM文件(对齐读)
- 基因通过样本表达矩阵(非归一化)
- 基因通过样本表达矩阵(归一化)


对于Affymetrix基因表达微阵列,“row”文件是所谓的CEL文件(Affymetrix发明的文件格式),"processed”数据是在探针组级别进行归一化和量化的数据。

最后,GEO具有系列标识符(如GSE19486)和样本标识符(GSM486297)。注意GSE与GSM的相同。用户几乎总是对给定系列中的所有样品感兴趣,因此起始点是序列标识符,也称为登录号。

## GEOquery

下载 [GSE11675](http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE11675) 6个样本的数据

[AppleScript] 纯文本查看 复制代码
```{r getData}
eList <- getGEO("GSE11675")
class(eList)
length(eList)
names(eList)
eData <- eList[[1]]
eData
```


该函数返回一个`list`,因为你可能会得到多个SubSeries。 在这种情况下,只有一个,列表元素是一个“ExpressionSet”,可以使用! GEO知道的表型数据包含在“pData” 中; 这里通常有很多不必要的东西:
[AppleScript] 纯文本查看 复制代码
```{r pData}
names(pData(eData))
```


但是,我们在这里获得的是处理过的数据。 用户经常希望访问更多原始数据。 这在GEO语言中被称为“补充文件”,我们也可以得到这些。
[AppleScript] 纯文本查看 复制代码
```{r getGEOsupp}
eList2 <- getGEOSuppFiles("GSE11675")
eList2
tarArchive <- rownames(eList2)[1]
tarArchive
```
 




## Other packages

There are other packages for accessing other online repositories with public data; they include `r Biocpkg("SRAdb")` for the Short Read Archive (SRA) and `r Biocpkg("ArrayExpress")` (ArrayExpress; a similar database to NCBI GEO but hosted at the European Bioinformatics Institute (EBI)).
这是一个文件名的“data.frame”。 单个TAR存档被下载。 您可以使用标准工具扩展TAR achive; 里面有6个CEL文件和6个CHP文件的列表。 然后,您可以使用`r Biocpkg(“affy”)``或`r Biocpkg(“oligo”)`的函数将6个CEL文件读入R中。

也可以使用`r Biocpkg(“GEOquery”)来查询GEO作为数据库(即查找数据集); 更多信息在包装小插页。

##其他packages

还有其他软件包用于访问具有公共数据的其他在线存储库; 它们包括用于短读归档(SRA)的“r Biocpkg(”SRAdb“)”和“BioCPkg(”ArrayExpress“)”(ArrayExpress;与NCBI GEO相似的数据库,但在欧洲生物信息学研究所(EBI)上托管)。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-16 09:11 , Processed in 0.028540 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.