搜索
查看: 2807|回复: 0

[basic] shortread 包,主要用来读取fastq文件(原始数据)

[复制链接]

64

主题

138

帖子

681

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
681
发表于 2017-7-7 10:59:42 | 显示全部楼层 |阅读模式
主要是读取NGS原始数据的

[AppleScript] 纯文本查看 复制代码
```{r dependencies, warning=FALSE, message=FALSE}
library(ShortRead)
```


### Reading FASTQ files

FASTQ文件格式是代表原始(未比对)下一代测序读段的标准方式,特别适用于Illumina平台。 格式基本上由读取的4行组成,行包含

1.读段名称(有时包括流池ID或其他信息)。
2.读段核苷酸
3.空的或第1行的重复
4.编码读段质量得分

双端读段存储在两个单独的文件中,读段顺序相同(这显然是不可靠的;如果读取在一个文件中重新排序而不是另一个)。

这些文件由`readFastq()`读取,它产生'ShortReadQ'类的对象

[AppleScript] 纯文本查看 复制代码
```{r fastq1}
fastqDir <- system.file("extdata", "E-MTAB-1147", package = "ShortRead")
fastqPath <- list.files(fastqDir, pattern = ".fastq.gz$", full = TRUE)[1]
reads <- readFastq(fastqPath)
reads
```


这里我们直接把函数指向文件路径。 通常在Bioconductor中使用的范例是首先将文件路径放入表示特定文件类型的对象,然后读取它; 看到
[AppleScript] 纯文本查看 复制代码
```{r fastq2}
fqFile <- FastqFile(fastqPath)
fqFile
reads <- readFastq(fqFile)
```

这在这种情况下似乎没有什么意义,但是对于真正的大文件,以块形式访问它们是有意义的,请参见下面的BAM文件示例。

`ShortReadQ`类与  `DNAStringSet`类似,但是它有两组字符串: 他们被访问如下:

[AppleScript] 纯文本查看 复制代码
```{r accessorFastq}
sread(reads)[1:2]
quality(reads)[1:2]
id(reads)[1:2]
```


### A word on quality scores

注意质量得分如何列为字符。 您可以将它们转换为标准的0-40整数质量得分通过下面的方式

[AppleScript] 纯文本查看 复制代码
```{r convertQual}
as(quality(reads), "matrix")[1:2,1:10]
```

在这个转换中,每个字母匹配一个介于0和40之间的整数。这种匹配被称为质量分数的“编码”,并且有不同的方式来进行编码。 不幸的是,它不存储在FASTQ文件中,使用哪个编码,所以你必须知道或猜测编码。 ShortRead包为您做这个。

这些数字应该与报告的基数与模板片段不同(即序列错误)的概率相关。 应该意识到这个概率解释并不总是如此; 诸如"quality-remapping" 的方法有助于确保这一点。

### Reading alignment files

该包对解析BAM文件有一些非常旧的支持,读取比对文件推荐使用`r Biocpkg(“Rsamtools”)`和`r Biocpkg(“GenomicAlignments”)·。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-21 17:42 , Processed in 0.026867 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.