搜索
查看: 3434|回复: 9

【 读文献】2013年新加坡A*star用illumina-HGv4芯片做的信号通路

[复制链接]

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2016-10-16 15:53:41 | 显示全部楼层 |阅读模式
该文章发在cancer discovery上面,杂志很不错。从数据处理的角度,我只关心figure6的芯片数据处理,就用了一个illumina-HGv4芯片,可以上12个样本,正好分成4组,每组3个重复,理论上我们应该对同样的芯片数据分析得到同样的结果。
数据见:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE30669
paper见:http://cancerdiscovery.aacrjournals.org/content/3/10/1156.long

分组是: HEK-PDK1, -MYC, or -E545K as compared with HEK-vector control cells.
文章的差异分析结果如下:
Significant analysis of microarray identified 1,750, 1,080, and 297 differentially expressed genes in these transformed cells when compared with nontransformed control cells, respectively (false discovery rate < 0.05; P < 0.01;

当然,把数据处理到同样的结果只是这篇论坛的一小步,如何看懂他们是如何来解释这些结果的才是最重要的。





上一篇:第三贴:表达序列标签
下一篇:RNA Immunoprecipitation (RIP) 测序简介
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2016-10-16 16:30:14 | 显示全部楼层
我可以把数据拿下了从头到尾进行差异分析,但是文章没有描述那12个样本的分组信息,所以我的代码是:https://github.com/jmzeng1314/my ... HGv4/GSE30669_DEG.R
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

2

主题

52

帖子

474

积分

中级会员

Rank: 3Rank: 3

积分
474
发表于 2017-3-19 14:31:36 | 显示全部楼层
Jimmy你好!
借帖请教关于 illumina bead array 的两个小问题:
1. 看了你的 GSE30669_DEG.R 脚本和博文[用 lumi 包来处理 illumina 的 bead 系列表达芯片]介绍,似乎 GSE30669_HEK_Sample_Probe_Profile.txt 经过lumi.N.Q等步骤质控之后的数据 A,和直接读入从 GEO 下载的 GSE30669_series_matrix.txt 的数据 B,是等同的(即 A=B)?
你的博文中也提到“明显可以看到前面得到的dataMatrix 和后面得到的 exprSet 都是我们想要的表达矩阵 ## 因为你有时候获取别人处理好的表达矩阵,不符合你的 normalization 要求”。但是后面这句话让我很困惑,GSE30669_series_matrix.txt 直接读入的数据:


数据看起来确实已经 normalize 过了,所以我的理解没错?A=B?

2. 如果使用 GSE30669_series_matrix.txt 读入数据 B 直接进行下游 DE 分析,那么还是像 GSE30669_DEG.R 脚本里直接用 limma 做吗?

3. 我注意到同样是 Illumina HumanHT-12 V4.0 expression beadchip 的芯片数据,GSE65021 数据集提供 GSE65021_non-normalized.txt.gz,我读入 R 后去掉简单处理列名并去掉 P 值列后是这样:


显然和上面的 series_matrix.txt 文件内容比起来是 non-normalized 了。如果恰好 GSE65021_series_matrix.txt “不符合你的 normalization 要求”,这个GSE65021_non-normalized.txt.gz 数据就是要分析的,那么下面的 normalize 要怎么做呢?log2(ttt+1)?
我看页面并没有给出 GSE65021_non-normalized到 GSE65021_series_matrix 之间是何种关系,读入 GSE65021_series_matrix.txt 看了一下数据看起来也不像是上面 GSE30669_series_matrix.txt 那样的经过 normalize 的数据,似乎 GSE65021_non-normalized.txt 和 GSE65021_series_matrix.txt 都没有normalize。很不明白要怎么处理这种情况。


问题不知道说清楚了没有。
谢谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

634

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
 楼主| 发表于 2017-3-22 18:04:27 | 显示全部楼层
尚目目 发表于 2017-3-19 14:31
Jimmy你好!
借帖请教关于 illumina bead array 的两个小问题:
1. 看了你的 GSE30669_DEG.R 脚本和博文[用 ...

看起来在这个GSE30669里面的GSE30669_series_matrix.txt 记录的不是纯粹的表达矩阵了,我们一般不用你截图的这个东西的。
芯片的log2表达矩阵,绝大部分value必须在3~15之间,一定要用boxplot看一下。
我建议你读取non-normalized.txt.gz里面的文件,然后用lumi 包来处理得到表达矩阵,代码如下:
[AppleScript] 纯文本查看 复制代码
x.lumi <- lumiR.batch(fileName) ##, sampleInfoFile='sampleInfo.txt')
pData(phenoData(x.lumi))
## Do all the default preprocessing in one step
lumi.N.Q <- lumiExpresso(x.lumi)
### retrieve normalized data
dataMatrix <- exprs(lumi.N.Q) 
exprSet=dataMatrix
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

2

主题

52

帖子

474

积分

中级会员

Rank: 3Rank: 3

积分
474
发表于 2017-3-23 12:39:41 | 显示全部楼层
Jimmy 发表于 2017-3-22 18:04
看起来在这个GSE30669里面的GSE30669_series_matrix.txt 记录的不是纯粹的表达矩阵了,我们一般不用你截 ...

好的。
多谢Jimmy的解答
回复 支持 反对

使用道具 举报

4

主题

48

帖子

778

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
778
发表于 2017-9-28 22:40:54 | 显示全部楼层
尚目目 发表于 2017-3-19 14:31
Jimmy你好!
借帖请教关于 illumina bead array 的两个小问题:
1. 看了你的 GSE30669_DEG.R 脚本和博文[用 ...

这个问题我遇到过,raw.data 这个就是其实就是注释文件 ,no normalize这个文件其实不是lumibatch对象,所以不能用lumi包读取。我看了部分GEO beadarray只提供看了 raw.data  这个文件都是26.2M大小,这个文件没有什么用处,还有就是no normalize文件。里面有个表达,后面有detection pval。  这个不是所谓的官方beststuio或者geomestudio导出的数据,也就是lumibatch对象文件。所以只能用下载matrix去分析。
回复 支持 反对

使用道具 举报

4

主题

48

帖子

778

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
778
发表于 2017-9-28 22:43:31 | 显示全部楼层
Jimmy 发表于 2017-3-22 18:04
看起来在这个GSE30669里面的GSE30669_series_matrix.txt 记录的不是纯粹的表达矩阵了,我们一般不用你截 ...

这个non normalize txt文件  不是lumibatch对象  所以不能用lumi包处理。有的就没有提供beststudio或者genomestudio软件导出的lumibatch对象文件。non normalize 文件内容格式和lumibatch文件内容格式也不一样。
回复 支持 反对

使用道具 举报

2

主题

52

帖子

474

积分

中级会员

Rank: 3Rank: 3

积分
474
发表于 2017-9-29 08:33:17 | 显示全部楼层
渊梦无痕 发表于 2017-9-28 22:40
这个问题我遇到过,raw.data 这个就是其实就是注释文件 ,no normalize这个文件其实不是lumibatch对象, ...

但是在不知道别人的 normalized _matrix 是怎么得来的情况下,我觉得直接用也不是一个好的选择啊
回复 支持 反对

使用道具 举报

4

主题

48

帖子

778

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
778
发表于 2017-9-29 16:27:14 | 显示全部楼层
尚目目 发表于 2017-9-29 08:33
但是在不知道别人的 normalized _matrix 是怎么得来的情况下,我觉得直接用也不是一个好的选择啊 ...

我看了一些帖子  说可能需要用到probe file 和sample info文件   然后genomestudio软件处理才能得到lumi包的lumibatch对象。
回复 支持 反对

使用道具 举报

2

主题

52

帖子

474

积分

中级会员

Rank: 3Rank: 3

积分
474
发表于 2017-9-30 08:24:39 | 显示全部楼层
渊梦无痕 发表于 2017-9-29 16:27
我看了一些帖子  说可能需要用到probe file 和sample info文件   然后genomestudio软件处理才能得到lumi ...

我都不敢用 series_matrix 了,有 RAW_data 都是直接选下载原始数据自己处理了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 02:10 , Processed in 0.042162 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.