搜索
查看: 2735|回复: 2

[ohter] Getting Data into Bioconductor (文件的读入)

[复制链接]

64

主题

138

帖子

681

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
681
发表于 2017-7-6 10:24:52 | 显示全部楼层 |阅读模式
Overview
如何将数据导入 R/Bioconductor,这需要格式文件 !通常来说进入数据文件 需要将数据读入data container. 如ExpressionSetandSummarizedExperiment,以及类GRanges` 。下面将简单介绍常见的文件格式以及对应的读取文件的R包。
Application Area微阵列数据
大多数微阵列数据可通过供应商特定的文件格式(如CEL(Affymetrix)或IDAT(Illumina))向最终用户提供。这些文件格式可以使用供应商特定的软件包来读取,例如
  • r Biocpkg("affyio")
  • r Biocpkg("affxparser")
  • r Biocpkg("illuminaio")
这些软件包非常低级。 在实践中,许多分析特定的软件包支持将这些文件导入有用的数据结构,而使用这些软件包之一更好。 例如
  • r Biocpkg("affy") for Affymetrix Gene Expression data.
  • r Biocpkg("oligo") for Affymetrix and Nimblegen expression and SNP array data.
  • r Biocpkg("lumi") for Illumina arrays.
  • r Biocpkg("minfi") for Illumina DNA methylation arrays (the 450k and 27k arrays).
高通量序列
原始数据 FASTQ  格式的文件
大多数分析的第一步是将读数映射到基因组上。对于 aligned reads为BAM(SAM)格式 的。
然而,BAM(和SAM和FASTQ)文件相当大,并且仍然表示在分析之前需要进一步处理。然而,这种进一步的处理因应用领域(ChIP,RNA,DNA等)而异。另外,文件格式非常少,一个的标准格式的例子是BigWig。作为缺乏标准的示例,仍然没有标准文件格式表示基因或转录水平上的RNA-seq读数;不同的管道提供不同类型的文件。幸运的是,这些文件通常是文本文件,可以用UCSC处理文本文件的标准工具进行读取,包括UCSC表可以从同一个包中访问,例如使用getTable()和ucscTableQuery()。
还支持在r Biocpkg(“rtracklayer”)中解析GFF(基因组文件格式)。
File typesFASTQ 文件
这些文件用来显示序列读段, 通常来自 一个Illumina sequencer.  See the r Biocpkg("ShortRead") package.
BAM / SAM files
从参考序列比对了的读段.  See the Biocpkg("Rsamtools") package.
VCF files
CVF是用于描述SNP,INDEL和SV结果的文本文件。是表示基因型的文件,通常通过在高通量测序数据上运行基因分型流程来产生。它的二进制文件为BCF,r Biocpkg("VariantAnnotation")可以进入此种文件。
UCSC Genome Browser formats
这些格式包括:
  • Wig and BigWig
  • Bed and BigBed
  • bedGraph
用 r Biocpkg("rtracklayer") 包来读取,   GFF 文件也可以被读取 (annotation files).
文本文件
一个重要的特殊情况是简单的文本文件,由“TAB”或“,”分开,然后通常命名为TSV(标签分隔值)或CSV(逗号分隔值)。
读取这些类型的文件的基本R函数是通用的,但是速度慢,read.table()。它有大量的参数,可以自定义来读取大多数文件。请注意以下参数
  • sep:分隔符
  • comment.char:注释行,例如标题行。
  • colClasses:如果你知道文件中不同列的类,你可以大大加快功能。
  • “quote”:默认值为“”“,这可能会导致使用3’和5’的基因组学问题。
  • row.names,col.names
  • “skip”,“nrows”,“fill”:读取文件的一部分。
对于非常复杂的文件,您可以使用readLines()将文件读入字符向量。
虽然read.table()经典,但是慢。
r CRANpkg(“readr”)包具有read_tsv(), read_csv() 和 read_delim()这些函数比read.table()  快得多。
r CRANpkg(“data.table”)包具有fread()函数,这是我知道的最快的解析器, 但是没有’r CRANpkg(“readr”)`中的函数灵活。
得到公共数据库的数据
  • NCBI GEO (Gene Expression Omnibus):   the r Biocpkg("GEOquery") package.
  • NCBI SRA (Short Read Archive):        the r Biocpkg("SRAdb") package.
  • EBI ArrayExpress:           the r Biocpkg("ArrayExpress") package.


回复

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2017-7-6 10:36:13 | 显示全部楼层
用网络插件markdown here排版好像有一点点丑,你的md文件都有备份吧?
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

64

主题

138

帖子

681

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
681
 楼主| 发表于 2017-7-6 14:37:43 | 显示全部楼层
Jimmy 发表于 2017-7-6 10:36
用网络插件markdown here排版好像有一点点丑,你的md文件都有备份吧?

有的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-12 20:21 , Processed in 0.029074 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.