搜索
查看: 3439|回复: 3

芯片数据做差异分析的一点疑问,关于预处理和探针注释

[复制链接]

2

主题

52

帖子

474

积分

中级会员

Rank: 3Rank: 3

积分
474
发表于 2017-9-15 19:52:13 | 显示全部楼层 |阅读模式
最近一直在学习芯片数据处理,碰到几个问题希望可以一起讨论下:

1. 关于芯片原始数据的预处理——RMA,gcRMA,MAS 5.0。
常见的做法是RMA,gcRMA或者mas一步完成,我分别用数据用这3种方法来处理,似乎gcRMA的效果多数比RMA好(下图1),画出来的拟合曲线在gcRMA处理后基本都能很好的集中在一起,通常RMA效果略差一点,但是又看到说gcRMA通常导致拖尾(我处理试过几个数据基本都如此),同时gcRMA算起来对计算机资源消耗和需要时间都是明显多余RMA算法的。这可能也可以解释为什么RMA更加常用。
再来考虑MAS情况又要变了,分别得到表达矩阵(mas算法不会取对数值,数据自己做了log处理)后分别做直方图,发现RMA和gcRMA似乎都在低表达量区有严重的偏分布,但是MAS5.0得到的数据基本上符合正态分布,这样看来,对于后续分析似乎MAS得到的数据更合适?这个存疑,因为对差异分析的统计模型不是很懂,但是似乎模型在数据正态分布下得到的结果表现更好(limma的线性模型?)?希望有十分懂得生物统计的坛友能给出见解。这样我也就不纠结到底每次选哪个处理算法了。





2. 关于探针注释——先注释再差异分析,还是先差异分析再注释?
我习惯自己下载GEO的GPL,读入成表格之后利用探针号与表达矩阵之间匹配来进行注释。
实际使用中,到底是要在RMA处理后得到表达矩阵后进行探针注释然后进行差异分析呢?还是得到表达矩阵后不注释,先进行差异分析,得到差异表达探针然后再注释呢?
我的想法是,由于得到表达矩阵时是通过RMA等算法得到,这些数据理论上是符合某种利于下游分析的分布的,如果这个时候就注释到基因水平,由于大量重复探针(包括一个探针对应多个基因和多个探针对应一个基因,尤其是后者常见,我发现GPL570几乎有近一半的探针可以归类为重复)的存在,注释之后数据势必会发生很大变化,似乎是不利于下游继续分析的。
但是先做差异分析得到差异探针再注释似乎也存在问题。由于这个时候重复探针的存在,很多基因相当于在数据中有多行,而没有重复的基因则只有一行,这会不会影响计算的结果呢?其次,不注释的话,纳入计算的探针量可以达到实际基因的2倍左右,而差异分析是要做P值校验的,那么探针水平差异分析由于探针量大,理论上说FDR是更小的,得到的结果会更加保守。同时也可能意味着得到更少的差异基因。

不知道这些问题是我想多了还是对于数据分析还没有掌握好。希望和坛友一起探讨。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:网络的细胞特性图书馆-LINCS
下一篇:美国医学遗传学与基因组学学会(ABMGG)资格认证
回复

使用道具 举报

0

主题

3

帖子

57

积分

注册会员

Rank: 2

积分
57
发表于 2018-4-23 00:00:20 | 显示全部楼层
很好的问题,不知楼主现在是如何考虑的。
对于2,我的理解是,差异表达分析前,还是应该先注释的,然后多个探针对应于1个基因的取均数,可以将多行转换成1行,这样所有的数据都是1行,一致性我想应该是后续分析的前提吧?另外后续分析的运算量也会小些,这样的理解不知是否正确,还望大家指教
回复 支持 反对

使用道具 举报

0

主题

3

帖子

57

积分

注册会员

Rank: 2

积分
57
发表于 2018-4-23 21:17:11 | 显示全部楼层
今天有思考了一下,似乎还应该考虑一下后续的分析目的确定到底是先注释还是先做差异分析
不知大家以为如何?
回复 支持 反对

使用道具 举报

2

主题

52

帖子

474

积分

中级会员

Rank: 3Rank: 3

积分
474
 楼主| 发表于 2018-5-1 21:28:08 | 显示全部楼层
cureheart 发表于 2018-4-23 21:17
今天有思考了一下,似乎还应该考虑一下后续的分析目的确定到底是先注释还是先做差异分析
不知大家以为如何 ...

我以为对于芯片来说,做分析的目的基本都是基于基因表达的,所以后续分析目对于确定是否先注释并没有很明确的关系。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-26 17:15 , Processed in 0.032676 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.