Overview 如何将数据导入 R/Bioconductor,这需要格式文件 !通常来说进入数据文件 需要将数据读入data container. 如ExpressionSetandSummarizedExperiment,以及类GRanges` 。下面将简单介绍常见的文件格式以及对应的读取文件的R包。 Application Area微阵列数据 大多数微阵列数据可通过供应商特定的文件格式(如CEL(Affymetrix)或IDAT(Illumina))向最终用户提供。这些文件格式可以使用供应商特定的软件包来读取,例如 - r Biocpkg("affyio")
- r Biocpkg("affxparser")
- r Biocpkg("illuminaio")
这些软件包非常低级。 在实践中,许多分析特定的软件包支持将这些文件导入有用的数据结构,而使用这些软件包之一更好。 例如 - r Biocpkg("affy") for Affymetrix Gene Expression data.
- r Biocpkg("oligo") for Affymetrix and Nimblegen expression and SNP array data.
- r Biocpkg("lumi") for Illumina arrays.
- r Biocpkg("minfi") for Illumina DNA methylation arrays (the 450k and 27k arrays).
高通量序列原始数据 FASTQ 格式的文件 大多数分析的第一步是将读数映射到基因组上。对于 aligned reads为BAM(SAM)格式 的。 然而,BAM(和SAM和FASTQ)文件相当大,并且仍然表示在分析之前需要进一步处理。然而,这种进一步的处理因应用领域(ChIP,RNA,DNA等)而异。另外,文件格式非常少,一个的标准格式的例子是BigWig。作为缺乏标准的示例,仍然没有标准文件格式表示基因或转录水平上的RNA-seq读数;不同的管道提供不同类型的文件。幸运的是,这些文件通常是文本文件,可以用UCSC处理文本文件的标准工具进行读取,包括UCSC表可以从同一个包中访问,例如使用getTable()和ucscTableQuery()。 还支持在r Biocpkg(“rtracklayer”)中解析GFF(基因组文件格式)。 File typesFASTQ 文件这些文件用来显示序列读段, 通常来自 一个Illumina sequencer. See the r Biocpkg("ShortRead") package. BAM / SAM files从参考序列比对了的读段. See the Biocpkg("Rsamtools") package. VCF filesCVF是用于描述SNP,INDEL和SV结果的文本文件。是表示基因型的文件,通常通过在高通量测序数据上运行基因分型流程来产生。它的二进制文件为BCF,r Biocpkg("VariantAnnotation")可以进入此种文件。 UCSC Genome Browser formats这些格式包括: - Wig and BigWig
- Bed and BigBed
- bedGraph
用 r Biocpkg("rtracklayer") 包来读取, GFF 文件也可以被读取 (annotation files). 文本文件一个重要的特殊情况是简单的文本文件,由“TAB”或“,”分开,然后通常命名为TSV(标签分隔值)或CSV(逗号分隔值)。 读取这些类型的文件的基本R函数是通用的,但是速度慢,read.table()。它有大量的参数,可以自定义来读取大多数文件。请注意以下参数 - sep:分隔符
- comment.char:注释行,例如标题行。
- colClasses:如果你知道文件中不同列的类,你可以大大加快功能。
- “quote”:默认值为“”“,这可能会导致使用3’和5’的基因组学问题。
- row.names,col.names
- “skip”,“nrows”,“fill”:读取文件的一部分。
对于非常复杂的文件,您可以使用readLines()将文件读入字符向量。 虽然read.table()经典,但是慢。 r CRANpkg(“readr”)包具有read_tsv(), read_csv() 和 read_delim()这些函数比read.table() 快得多。 r CRANpkg(“data.table”)包具有fread()函数,这是我知道的最快的解析器, 但是没有’r CRANpkg(“readr”)`中的函数灵活。 得到公共数据库的数据- NCBI GEO (Gene Expression Omnibus): the r Biocpkg("GEOquery") package.
- NCBI SRA (Short Read Archive): the r Biocpkg("SRAdb") package.
- EBI ArrayExpress: the r Biocpkg("ArrayExpress") package.
|