在医学方上面看到的一篇很全面的总结,分享一下:
基因表达谱芯片数据分析及其Bioconductor实现 1. 表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于研究基因表达的芯片可以有两种:① cDNA芯片;② 寡核苷酸芯片。 cDNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统:目前常用 Cy3一dUTP(绿色)标记对照组mRNA,Cy5一dUTP(红色)标记样品组 mRNA[1]。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况[2]。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核苷酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应几乎就能够分析整个人的基因[3]。②同一个体在不同时间里,相同基因的表达差异。③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差[4] 。张辛燕[5]等将 512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe[6]等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计奠定基础。 2. 表达谱芯片的数据处理技术 2.1 探针水平数据(probe-level data)的获得 提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号[7],由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。 2.2 预处理 2.2.1 背景(background)处理 背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%[7]的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景[8] 。Brown[8]等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。 2.2.2 数据清洗(data cleaning)
经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。另外,对于负值和噪声信号,通常的处理方法就是将其去除。然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响。所以对数据的删除,通常是删去所在的列向量或行向量。一个比较常用的做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈值M,则删去该向量。若未达到M,有两种方法处理,一是以0或者用基因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之间的关系,据此利用相邻数据点估算得到缺失值(类似于插值)。 2.2.3 归一化(normalization) 经过背景处理和数据清洗处理后的修正值反映了基因表达的水平[9]。然而在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据,也需归一化。常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法 [10]等。 ⑴ “看家基因(house-keeping gene)”法 此法最为常用,可以用于几张芯片的数据归一化。它预先选择一组表达水平不变的看家基因,计算出这组基因平均ratio值为1时标准化系数,然后将其应用于全部的数据以达到归一化的目的。但是目前尚未找到理想的看家基因[11],另外此前有研究表明,所谓“看家基因”在不同实验条件下其表达水平同样发生变化[12]。 ⑵ 基于总光密度的方法[13] 此方法用于标准化同一块芯片上杂交的两种样品,它假设两批待标记的mRNA的量相同;相对于对照组样品,实验组的表达应既有上调也有下调。而且,扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。据此计算出一个标准化系数,用以重新计算芯片上每个基因的光密度。 ⑶ 回归的方法[13] 此方法用于标准化同一块芯片上杂交的两种样品。如果mRNA来自紧密相关的样品,那么大部分基因的表达水平是相近的。这样,在以Cy5和Cy3为坐标的散点图上,这些基因应呈一直线。如果两批样品的标记和检测效率相同,则直线的斜率也是惟一的。那么,标准化这些数据就等同于用回归的方法计算其最适斜率。但在实际试验中,光密度值常为非线性,此时应该使用局部回归方法,如LOWESS(1ocally weighted scatterplot smoothing)回归法。 ⑷ 比率统计法[13] 此方法用于标准化同一块芯片上杂交的两种样品,并且建立于以下的假设之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因(如管家基因)的表达量是近似相同的。由此得出一个近似概率密度公式:比率T =R /G(R 和G分别是芯片上第K个点的红光和绿光的强度),经过迭代算法处理得到一个平均表达比率及其可信限,用于数据的标准化计算。 2.3 基因表达数据 经过预处理,探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语,基因表达数据仍采用矩阵形式。 随着生物学进入后基因组学时代,类似芯片数据这样的的非序列生物数据几乎呈指数形式膨胀。这些生物数据往往维数高,具有异质性和网络性,传统的分析方法已不能胜任,发展优秀的算法分析生物数据成为生物学研究的瓶颈。数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位[14]。 数据挖掘也被称为数据库知识发现(knowledge discovery in database,KDD),是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的、模式的非平凡过程[15]。迄今还没有一套完整、统一的数据挖掘理论体系来指导如何获取有用信息[16]。 2.4 差异表达基因(differentially expressed genes,DEGs)筛选 用于检测基因表达水平的DNA微阵列的应用之一是比较实验,目的是比较两个条件下的基因差异表达,从中识别出与条件相关的特异性基因或显著差异表达的基因。 2.4.1 倍数变化法(fold chang, FC) 比较两个各不同生物样本时,可根据ratio值来筛选,一般认为ratio值在0.5—2.0范围内的基因不存在显著表达差异,该范围之外则认为表达有显著差异。当然,上述范围需要根据不同实验条件作调整。 FC法的优点是简单直观,需要的芯片量少,节约研究成本[16];缺点是结论过于简单,其阈值的划分主观性较强、缺乏生物学和统计学支持,尤其对于分析样本中的低拷贝或高拷贝转录子,容易产生假阳性和假阴性问题[12]。 一般而言,FC法可用于对于预实验和实验初筛。 2.4.2 参数分析(parameter analysis) ⑴ t-检验(t-test) t 检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。当 t 超过根据可信度选择得标准时,比较的两样本被认为存在着差异。受样本量和成本的限制,研究者提出了调节性 t 检验(regulated t-test)。它根据在基因表达水平和变异之间存在着相互关系,相似的基因表达水平有着相似的变异这个经验,应用贝叶斯条件概率统计方法,通过检测同一张芯片上其他临近基因表达水平,理论上可对任何基因的变异程度估计进行弥补。调节性 t 检验法对基因表达的标准差估计优于一般t检验和FC法[20]。 ⑵ F 检验 F 检验又称变异数分析或方差分析(analysis of variance, ANOVA)。F 检验适用于多个生物条件下DEGs的检测,它检验两个或多个样本均数的差异是否有统计学意义。方差分析需要参照实验设计,参照样本常用多种细胞的mRNA混合而成,由于所有的细胞同时表达基因众多,结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性,因此,增加参照样本的细胞不会提高参照样本的代表性。 方差分析的缺点在于虽然能计算出那些基因有统计差异,但是他没有对那些组之间有统计差异进行区分。如果相区分组间的统计差异,则需要使用均值间的两两比较(post-hoc comparisons)检验,该检验是对方差分析后的基因进行下一水平更细节的分析[15]。 ⑶ 回归分析(regression analysis) 基因表达谱的回归分析可以处理多个基因变量间线性依存关系,研究者提出了“使用回归分析的基因表达谱数据”。Li 等[22]使用互变量(Cox)回归方法分析基因表达谱数据,用于患者的生存率预判;Huang 等[23]将线性回归方法应用于肿瘤的分类研究中。 2.4.3 非参数分析(nonparameter analysis) 由于噪声的存在,通过数据转换后微阵列数据可能仍然不呈正态分布,因此使用参数分析法可能有风险。非参数检验的优点在于不必假设数据满足特殊的正态分布,尽管其对数据进行筛选有些粗放,而且其对表达数据分析的敏感性不如参数分,但是仍然可行。常用的基因表达谱数据分析的非参数检验方法有:传统的非参数t-检验(nonparametric t-test)[24]、Wilcoxon秩和检验(Wilcoxon rank sun test)[24]和新的非参数法如检验贝叶斯法(empirical Bayes method)[25]、芯片显著性分析法(signifcance analysis of micorarray,SAM)[26]、混合模型法(the mixture model method,MMM)[27]等。 2.4.4 假表达谱(pseudo profile) 假表达谱常用于鉴别基因的某一特定性为。比如要鉴别在肺癌中高表达而在正常肺组织中和其他肿瘤组织中低表达的基因,就可以先假设具有这样一个假表达谱,然后在实际芯片数据中去寻找与其相吻合的基因[7]。 关于DEGs的检测,目前尚无统一性标准,芯片后验证性实验(RT-PCR、荧光定量 RT-PCR、Northern等)是确定样本基因差异表达的黄金标准。 2.5 基因芯片数据分析的非监督方法 在基因表达谱中找出差异表达基因只是对表达谱数据进行统计学分析第一步,通过建立共调控网络,发掘未知和已知基因功能才是芯片实验的最终目的。前者可以看成是基因表达的单基因水平分析,后者则为基因与蛋白质网络分析。 根据对所研究的基因表达规律和实验分组是否了解,可将分析方法分为监督的(supervised)和非监督导的(unsupervised)。前者根据特定样本或基因的已知生物学信息对表达谱建立分类器,进而对各基因进行功能分类和预测,后者则通过计算和比较表达谱各基因统计学距离,聚类“相似性”样本或基因。两者都假设功能相似的基因其表达谱也是相似的,但Zhou[19]等认为,一些相似功能的基因并不总是表现相似的表达谱,针对此他们提出了“过渡共表达基因”概念及相应的数学模型鉴定表达谱中此类基因。 2.5.1 非监督的分析方法概述 芯片数据统计分析的非指导的方法即聚类分析(cluster analysis),在目前最为常用。聚类分析是研究事物分类的一种方法,是在事物分类面貌尚不清楚的情况下研究事物的分类,其原理是直接比较样本中各指标之间的性质,将性质相近的归为一类,性质差别较大的归在另一类。统计学上通过计算相似距离(similarity distances)来比较数据,常用相关系数或欧氏距离表示。 2.5.2 非监督分析中的数据降维(dimension reduction) 在芯片数据中,有些数据并未提供有显著意义的信息,反而会给数据分析带来不必要的复杂。理想情况下,经过数据降维处理后,剩余数据即为非冗余数据(non-redundant data),不同组间的数据提供的信息是互相独立的。数据降维技术也分为监督的方法和非监督的方法。 非监督分析中的数据降维主要是指删除不提供信息的数据。如果某一基因在不同条件下的表达水平相同,则它对区分这些不同条件没有任何作用,该基因所提供的数据即为冗余数据。为了去除冗余数据,可将冗余的数据整合到一个新的杂合分组中。主成分分析可很好的完成这一任务。 2.5.3 非监督分析的各种技术简介 ⑴ 系统聚类(hierarchical clustering)[10] 系统聚类根据聚类的方式分为凝聚法(agglomerative approach)和分裂法(divisive approach)。 a. 凝聚法 按照从下到上的方式对个体进行聚类,初始每个个体从各为一类、按照一定的规则进行逐步合并,直到所有个体都归为一类或达到预定的终止条件。凝聚法因类问相似性的度量方法的不同而又有所差异。 b. 分裂法 按照从上到下的方式对个体进行聚类,初始所有个体为一类,然后按照一定规则逐渐分裂,直到每个个体形成一类或满足某个特定的结束条件,如达到预定的类数或两个最邻近的类之间的距离超过某预定值。 系统聚类方法简单,但有时在选择分裂点或合并点时存在困难。一旦将一组个体分裂或合并,后续的类将在新类的基础上产生,而不能取消己经完成的分裂或合并,也不能在类问对个体进行调整。系统聚类不适于分析基因表达谱复杂的数据[9]。 ⑵ 分割聚类(partitioning methods)[10][11] 对于一个给定的基因芯片矩阵,分割算法将把观察个体分为预定的几部分,使得对个体的分割达到最优的客观标准,即类内个体间的相似性达到最大,而类间个体间的相似性达到最小。最常用的分割算法为k-means法和k-medoids法。 a. k-means法 把n个观察个体分成k个类,使类内的相似性高,而类间的相似性低。类的相似性用类内观察个体的均值来度量,此均值被视为类的重心。通过计算新形成的k类的类均数,达到目标函数收敛。具体步骤如下:所有数据随机分入k个簇中,每个簇的平均向量用于计算各簇间的距离。然后用迭代方法计算簇间数据移动后的距离,某个数据只有在比原先所在的簇更为接近现在所在的簇时,才能留在目前所在的簇,每次移动后簇的平均向量都重新计算,如此不断重复,直至一旦有任何移动,都会增加簇内的距离或减小簇间的非相似性为止。 该法的局限性在于:①此方法在较大数据量时的扩展性和效率都较理想,但可能陷入局部最优。②只能用于类均数确定的情况下,若包含分类变量时就不适用。③必须提前确定类数。④受噪声和异常值的影响较大。目前常先使用凝聚算法确定类数和初始的类,再利用迭代重定位技术提高聚类的效果。k-medoids算法中用模式代替类均数,使用新的非相似性指标处理分类资料,用以频数为基础的方法对类的模式进行更替,而k-prototypes算法(k-means和k-medoids的结合)可以处理数值变量和分类变量的混合资料。EM(expectation maximization)算法是k-means算法的另一种扩展,把每一个体不是划为具体的某种类别,而是赋予其属于各类的概率。 b. k-medoids法 k-means算法对于异常值敏感,因为极端值可能歪曲资料的分布。k-medoids算法选择类的最中心的一点作为参照点,而不是类中所有个体的均数。当数据中存在噪声和奇异值多时,k-medoids算法比k-means算法具有更高的稳健性,因为一个类中具有代表性的中心点比该类中所有个体的均数更不易受异常值的影响。但k-medoids方法同样需要预先确定类数[10]。 分割聚类分析适合于对具有相似性的基因进行分类。系统聚类和分割聚类是基因芯片数据分析中最传统、应用最广泛的方法,对于一般资料具有较理想的分类效果,但在处理复杂非线性及变量问的交互作用时效果较差。 ⑶ 主成分分析(principal component analysis,PCA)[28] 在大规模基因表达数据的分析工作中,由于组织样本例数远远小于所观察基因个数(G>>N),如果直接采用前述聚类分析可能产生较大误差,故需要对聚类算法进行改进。目前已经提出很多改进的聚类方法,其中较为流行的方法是应用主成分分析方法对数据进行分析。主成分分析的目的是要对多变量数据矩阵进行最佳综合简化。使用的方法是寻找这些变量的线性组合——称之为“主成分” (principal component),使这些主成分间不相关。为了能用尽量少的主成分个数去反映原始变量间提供的变异信息,要求各主成分的方差从大到小排列,第一主成分最能反映数据间的差异。主成分分析通过合并原来的维数得到更少的维数来表示对象,同时要求新的维数必须尽可能地反映原有维数所反映的信息,它有较少的信息丢失.主成分分析有助于简化分析和多维数据的可视化[17]。 ⑷ 自组织映射图网络(self-organizing map clustering,SOM)[10] 所谓自组织特征映射是指神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。自组织映射网络图的基本原理是:将多为数据输入成几何学节点,相似的数据模式聚成节点,相隔较近的节点组成相邻的类,从而使多维的数据模式聚成2维节点的自组织映射图。SOM适合于复杂的多维数据的模式识别和特征分类等探索性分析,它允许对聚类的部分结构施加干预。相对于系统聚类中的严格结构和k-means聚类的无结构,SOM更灵活。与主成分分析(PCA)类似,SOM可以对数据集中的不同表达模式实现可视化,从而判断某种模式是否为另外一种模式的变异。SOM同样需要实现确定类数。 ⑸ 模糊聚类法(fuzz clustering)[10] 在真实情况下,基因各功能类间的边界经常是不能截然分开的,模糊聚类适合于解决此类问题。该方法首先由Bezdek提出,后被Guthke用于基因芯片数据中的基因的分类。它给出向量(代表观察个体或基因)隶属于各类的隶属度,亦即该向量属于各类的概率。非监督模糊聚类的应用包括模糊c-means法、概率SOM和Gustafson-plaid法。 ⑹ 双向聚类(two-way clustering,TWC) 基因表达谱常采用单向聚类法(one-way clustering),即要么以整个样本中特性相似的基因进聚类,或者以基因表达相似的样本进行聚类。对样本和基因同时进行聚类就是双向聚类法(two-wayclustering),目前基因表达谱的数据分析常用的双向聚类有基因剃须(gene shaving,GS)和格子模型(plaid models)。基因剃须是通过基因的共同表达值或表达量来鉴定基因的亚类,基因表达谱分析方法常用监督进行聚类,没有考虑一个基因可能属于多个类。基因剃须对基因或样本进行分类既可以是监督的,也可以是非监督的。基因剃须近年逐渐被应用于基因表达谱的分析中,Hastie[23]使用基因剃须方法分析了B细胞淋巴瘤患者的基因表达谱,鉴定了一小类可用于生存率预判的基因。 2.6 基因芯片数据分析的监督方法 监督的方法又称判别分析(discriminant analysis),以判别样本所属的类型。判别分析在已有数据的基础上建立分类器,并利用所建立的分类器对未知样品的功能或状态进行预测。与聚类分析不同,判别分析使用某种方法将研究对象分成若干类的前提下,建立判别函数,用以判定未知对象属于已知分类中的哪一类[16]。 2.6.1 监督方法的数据降维 监督的方法中的数据降维主要指数据选择,其目的有二:⑴ 挑选相对基本的数据了;⑵ 减少同济分析所必须的数据量。最简单的降维方法是,不断重复为每个数据加权的分类算法。首先用分类算法去除加权最小的数据,然后在剩下的数据中再用分类算法去除加权最小的数据,如此不断重复,直到这种处理已经失去统计显著性的时候,表明有重要信息已经被错误删去了。此时,立即停止计算,然后找回被误删的数据,这样剩下的数据则为非冗余的。当然,这个方法的缺点在于难以确定统计显著性的大小。 2.6.2 各类监督方法技术简介 ⑴ 线性判别分析(1inear discriminant analysis,LDA) 线性判别分析是指在输入变量上构造线性判别函数的方法。即寻找一种变换,使得在某种意义下类间分离性最大,类内相异性最小。它是一种有监督的维数约简方法[30][31]。线性判别分析的特点是计算简单,易于应用,一般具有较低的误差率,但不能处理基因(或个体)间的交互作用。因此,当基因(或个体)间存在复杂的交互作用时,线性判别分析不易发现数据中的规律性[10]。有研究指出,在基因芯片的分类中,Diagonal线性判别分析具有与最临近分类相接近的较高的判别性能,而Fisher线性判别分析的判别性能比其他方法要差[10]。另外,与LDA接近的还包括二次方判别分析等。Cho等[32]应用Fisher判别方法分析肿瘤患者的基因表达谱资料以判别肿瘤的分型;Dangond[33]等将Fisher判别方法应用于计算肌萎缩侧索硬化病的基因表达谱研究中。 ⑵ k最临近分类法(k-nearest neighbor classfiers) k最临近分类法建立在通过类比进行学习的基础上,训练样本由n维计量变量描述,而每个观察个体由n维空间中的一点来描述。当给定一个未知样本,k-最临近分类算法将在模式空间中搜寻与此样本最临近的k个观察个体,这k个个体就是该位置观察个体的k个最临近点。一般采用欧氏距离来衡量临近程度。未知样本被赋予k个租赁金的个体中类数最多的类。与复杂的分类算法相比,k-最邻近算法具有简单、直观、误差率较低等特点,能够以“黑箱”的方式处理基因间的交互作用,但不能洞悉数据的结构。 ⑶ 决策树(decision trees)[16] 决策树是一种常用于预测模型的算法,它通过将大量数据有目的的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理[34]。 ⑷ 人工神经网络法(artificial neural network,ANN) ANN是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在ANN中,大量节点(“神经元”或“单元”)之间相互联接构成网络,即“神经网络”,以达到处理信息的目的。其优势是运行分析师无需在心中有特定模型,而且神经网络可以发现交互作用效果。Sawa等对酵母属基因表达谱数据进行欧式距离、相关系数、相互信息和基于神经网络的聚类分析,发现基于神经网络的聚类结果较前3种更为合理。 ⑸ 支持向量机(support vector machine,SVMs)[11][35] 支持向量机是数据挖掘中的一个新方法。支持向量机能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的新基因。它起源于统计学习理论,研究如何构造学习机,实现模式分类问题。支持向量机使用结构风险最小化,使每一类数据之间的分类间隔最大。SVM用构建训练组的方法来学习如何区分不同的类别,它可以利用生物学的信息决定如何分组,也可以找出已分类组中的错误值。例如Williams [36]为了鉴定出肾母细胞瘤复发的基因表达谱模型,研究了27例肾母细胞瘤患者的肿瘤组织,其中13例2年内复发,对复发和未复发的肿瘤组织进行基因芯片实验,并应用支持向量机对基因表达谱数据进行分析,结果发现了一小类可能用于肿瘤预诊的基因。 2.7 数据的可视化方法[14] 生物信息数据量大,形式复杂,直观地显示数据挖掘结果使其易于理解甚至关系到数据挖掘的成功与发展。目前已有一些可视化方法和工具,如Stanfold大学的TreeView软件采用色彩图与树图显示聚类的结果,树图能够清楚地显示层次聚类的每一步骤。另外,Bioconductor也提供芯片数据可视化的方法。 3. R & Bioconductor应用于表达谱芯片的数据处理 3.1 R & Bioconductor简介 R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台,它具有强大的数学统计分析和科学数据可视化功能,能提供给各种数据处理和统计分析工具,如线性和非线性建模、经典的统计测试、时间序列分析、分类和聚类,同时也提供各种图形显示和分析工具。由于R语言是一个开放式的软件开放平台,软件开发人员可以再这个平台上不断扩充R语言的功能,并开发出面向特定应用的软件,如Bioconductor。 Bioconductor实际上是一个开源和开放式的软件开发项目,该项目起始于2001年秋季,项目核心成员主要是哈佛医学院/哈佛公共卫生学院的Dana Farber癌症研究所生物统计组,还有来自美国和国际上的其他研究机构的一些研究人员。该项目的目标是建立多方面的、强有力的基因组数据的统计与图形分析方法,促进各种生物数据的集成,推动数据的综合分析和利用,促进各种生物数据的集成,推动数据的综合分析和利用,促进形成高质量的文档,同时加速发展各种开放式软件,并加强基因组数据分析方法和技术的培训。 Bioconductor的应用功能主要是以包(package)的集成形式呈现在用户面前的,Bioconductor提供了大量开放式生物信息学软件包。其所提供的软件包包括各种基因组数据分析和注释工具,其中,大多数工具是针对DNA微阵列数据的处理、分析、注释及可视化的。同时,Bioconductor还提供许多鱼DNA微阵列相关的数据包,并将生物元数据与实验数据分析紧密结合起来。 3.2 Bioconductor用于表达谱芯片数据处理 3.2.1 预处理数据包 这类包的主要功能是对Affymetrix寡核苷酸芯片和双色cDNA微阵列产生的实验数据进行预处理,如背景校正、归一化等。它定义了各种给类及相关的处理方法,用于在探针水平上对微阵列实验数据进行各种形式的预处理;此外,它还具有各种统计图的绘制函数,提供可视化分析手段;它也提供各种函数和窗口小部件,用于从文件中输入数据,或者自动产生微阵列数据对象。下面是这类包的较详细地介绍。 ⑴ affy: Affymetrix芯片上每一条探针的荧光强度的检测数据称为探针水平的数据,对这些数据需要进行背景校正、归一化、探针值校正等处理,然后得到基因表达数据。affy包提供了一系列的分析算法来实现这个分析过程,并提供了一组绘图函数,对芯片数据和分析结果进行可视化分析。 ⑵ affycomp affydata包提供了一组图形化工具,通过对预处理的分析结果——基因表达数据进行统计分析,用来评价那些affy芯片数据分析算法的性能。 ⑶ affydata affydata包本质上是一个数据包,提供DILUTION数据集中的4块芯片的数据。实验样本来自人肝组织和中枢神经系统的细胞系,分别以两种不同浓度的样本与Affymetrix公司的人类hgu95av2芯片杂交,检测实验结果,形成affydata包中的数据。 ⑷ affypdnn包、affyPLM包、gcrma包分别用不同的方法计算基因表达数据 affypdnn采用PDNN算法(探针位置依赖最邻近法)分析探针水平的数据,计算基因表达数据。 affyPLM包提供了一种鲁棒的探针水平模型,用来计算Affmetrix基因芯片的比到达数据。affyPLM包的核心函数是fitPLM。 gcrma包使用RMA方法并结合探针序列信息分析微阵列的探针水平数据,并计算基因表达数据。 ⑸ makecdfenv makecdfenv包根据Affymetrix芯片描述文件创建与affy包配套使用的CDF环境。CDF环境是保存R语言环境中芯片描述信息,为探针集标识符与探针在芯片上的位置索引号之间构建了映射关系。 ⑹ annaffy annaffy包提供了Affymetrix分析结果与多个Web数据库之间的接口。利用这个包可以通过交互式方式访问网络数据库,搜索元数据,获取注释数据,并可以产生静态的HTML报告。这个包与Bioconductor中的注释类的包密切相关。 ⑺ marray: marray包用于cDNA微阵列数据的诊断性作图和归一化处理,是Bioconductor中的最重要组成部分,主要功能有:cDNA微阵列数据的读取,通过简单的作图来评价数据质量,对数据进行归一化处理。 ⑻ matchprobes matchprobes包的功能是计算微阵列上的探针序列和相关信息。 ⑼ vsn vsn包中含有一种针对微阵列数据额特殊预处理方法,用于微阵列探针水平数据的校正处理和图形化分析。 3.2.2 数据分析包 该类包主要用于分析微阵列数据,研究基因之间的关系,研究样本之间的关系,识别差异基因,其基本方法包括分类分析、聚类分析、基因过滤等。该类包的14个包提供了对实验数据的后续处理操作。 ⑴ daMA daMA包中含有一组函数,主要应用于设计双色因子微阵列实验,并对相关的实验结果数据进行统计分析。 ⑵ edd edd进行表达密度诊断,包括用于分布形状分类的图形化方法和模式识别算法,该包提供一系列工具,计算基因表达谱的分布函数,并根据分布函数对基因进行分类。 ⑶ actDesign factDesign提供一组工具,用于分析因子微阵列实验的数据,用于评价对照的正确检验和单个起一点的检测,采用线性模型的方法筛选某条件下的目的基因。 ⑷ genefilter genefilter使用一组过滤函数,根据芯片实验数据过滤、筛选基因,过滤器采用的过滤标准包括缺失数据的数目,反映表达水平变化的方差,协方差分析的p值,Cox回归模型的p值等,这些工具可以用来对基因进行连续筛选。 ⑸ globaltest globaltest主要分析与临床参数相关的一组基因是否具有显著性。 ⑹ gpls gpls使用GPLS(广义偏最小二乘法)算法对DNA微阵列实验数据进行分类,可以对数据进行两组或多组分类。 ⑺ multtest multtest用于控制FWER和FDR(假发现率)的多重检验步骤,提供基于单因子和双因子设计的t或F统计量检验,提供重排过程来估计调整的p值,改稿有多种统计检验函数或可视化函数。 ⑻ pamr pamr包的主要功能是对基因表达数据进行分类,提供各种基于最临近法、缩小质心法等统计方法的样本分类函数,同时提供分类结果的显示工具。 ⑼ MeasurementError.cor MeasurementError.cor是一种两步测量误差模型,用于估计双变量正态下两个随即变量之间的相关性,主要应用于分析基因表达数据间的相关性,相对于通常的样本相关性而言,有更小的相关习惯估计偏差。 ⑽ limma Limma包是关于基因表达芯片数据分析工具的一个库,提供读取微阵列数据和基因信息的基本函数,使用线性模型来设计和评估差异表达,还提供针对双色点样芯片数据的归一化和其他分析的函数。 ⑾ ROC ROC包是与ROC曲线相关的R语言的类和函数的集合,这些函数对DNA芯片实验进行ROC分析。 ⑿ siggenes siggenes识别差异表达基因,利用对芯片数据的显著性分析(SAM)以及对芯片的经典贝叶斯分析(EBAM),确定差异表达基因并估计检出率。另外,该报还提供了针对多类型数据以及未加工的原始数据的芯片显著性分析工具。 ⒀ splicegear 用于选择性剪切分析的一组工具。 ⒁ RMAGEMEL RMAGEMEL包的主要功能是处理Bioconductor中的MAGE-ML文档。 参考文献 [1] 许杨,阮琼芳,李燕萍.表达基因分析方法[J]食品与生物技术报, 1673 – 1689 (2008) 01 - 0122-05 [2] Lodish H, Berk A, Zipursky SL, et a1. Molecular cell biology[M].New York:Media Connected,1999 [3] Aimut Schulze, Julian Downward. Navigating gene expression using microar『ays~ atechnology review[J]. Nature Cell Biology,2001,(3):190—195. [4] Sofia K GruVberger—Saa1, Heather E Cunliffe, Kristen M Carr, et a1.Microarrays in breast cancer research and clinicaI practice-the future lies ahead[J]. Endocrine-Related Cancer,2006,13:1017—1031 [5] 张辛燕,李小平,赖娟等.cDNA微矩阵筛选卵巢癌相关基因的研究lJ] . 癌症,2003,22(9):943—947.ZHANG Xing—yan,LI Xiao-ping,LAN Juan,et a1 . Screening for ovarian cancer-associated genes with cDNA microarravs [J].Chinese Journal ofCancer,2003,22(9):943—947 .(in Chinese) [6] Anson W. Lowe,Marl Olsen,Ying Hao,et a1.Gene expression patterns in pancreatjc tumors,cells and tissues[J].Http://www.plosone.org,2007,2(3):e323. [7] 王永煜,张幼怡,基因芯片数据分析与处理[J],生物化学与生物物理进展,2003;30(2). [8] BROWN C S, GOODWIN P C, SORGOR P K. Image metrics in the statistical analysis of DNA microarray data.[J].Proc Natl Acad Sci U S A,2001,98(16):8944—8949. [9] Kooperberg C,Fazzio TG,Delrow JJ. Improved background correction for spotted cDNA microarrays[J].J Compm Biol,2002,9:55 [10] 荆志伟,王忠;王永炎,高思华. 基因芯片数据分析方法研究进展[J].生物技术通讯. 1009-0002(2007)01-0144-05 [11] 杨畅,方福德.基因芯片数据分析[J].生命科学,1004.0374(2004)01.0041.08. [12] 高利宏,曹佳.基因芯片可靠性分析及数据处理[J].第三军医大学学报. 1000-5404(2006)01-0080-03 [13] Quackenbush J.Computational genetics:computational analysis ofmicroarray data.NatRev Genet,2001.2:418,427 [14] 李荣.基因表达谱芯片数据挖掘系统[J].计算机应用研究,1001—3695(2009)08—2938—04. [15] Fayyad UM,Piatetsky—Shapiro G,Smyth P,et a1.Knowledge Discovery and Data mining:Toward a Uniting Frame work[M].CA:AAAI-Press.1996.82 [16] 吴斌.沈自尹. 基因表达谱芯片的数据分析.世界华人消化杂志. 2006;14(1):68—74 [17] Jin H,YangR,AwadTA,eta1.Effectsof earlyACEinhibition on cardiac gene expression following acute myocardial infarction Circulation,2001,103(5):736--742 [18] Liu A Zhan g Gehan E,Clarke R.Block principal component analysis with application to gene microarray data classification.Star Med 2002;21:3465—3474 [19] ZHOU X,KAO M C,WONG W H.Transitive functional annotation by shortest-path analysis of gene expression data[J].Proc Natl Acad Sci USA,2002,99(20):12783—12788. [20] Long AD,Mangalam HJ,Chan BY,Tolleri L,Hatfield GW,Baldi P.Improved statistical inference from DNA mi croarray data using analysis of varian ce and a Bayesian statistical framework.Analysis of global gene expression in Escherichia coli K12. J Biol Chem 2001;276:19937-19944 [21] Aubert J,Bar—Hen A,Daudin I,Robin S.Correction:Determination of the differentially expressed genes in microarray experiments using local FDR.BMC Bioinformatics 2005;6:42 [22] Li H,Gui J.Partial Cox regression analysis for high-dimensional mi croarray gene expression data.Bioinformatics 2004;20:I208一I215 [23] Huang X,Pan W.Linear regression and two-class classification with gene expression data.Bioinformatics 2003;19:2072—2078 [24] Troyanskaya OG,Garber ME,Brown PO,Botstein D,Altman RB.Nonparametric methods for identifying differentially expressed genes in mi croarray data.Bioinformatics 200Z 18:145 146 [25] Efron B,Tibshirani R. Empirical bayes methods and false discovery rates for microarrays.Genet Epidemiol 2O02:23:7o.86 [26] Tusher VG,Tibshirani R,Chu G . Significance analysis of microarrays applied to the ionizing radiation response.Proc Natf Acad Sc USA 2001;98:5116.5121 [27] Pan W,Lin J,Le CT. A mixture model approach to detecting differentially expressed genes with microarray data.Funct lntegr Genomics 2003;3:117-124 [28] 胡煜. 主分量分析法和K-近邻法应用于基因芯片数据分析[J].北华大学学报(自然科学版)1009-4822(2008)01..0012-04 [29] Hastie T, Tibshirani R,Eisen MB,Alizadeh A,Levy R,Staudt L,Chart WC,Botstein D,Brown P.‘Gene shaving' as a method for identifying distinct sets of genes with similar expression patterns. Genome Biof 2000;1:RESEARCH0003 [30] 胡煜.线性判别分析和降维方法应用于基因芯片数据分析.甘肃联合大学学报(自然科学版).1672—691X(2008)01—0029—06 [31] 杨建,杨静字,叶辉. Fisher线性鉴别分析的理论研究及其应用[J].自动化学报,2003(2):35—41. [32] Cho JH,Lee D,Park JH,et a1.Gene selection and classification from microarray data using kernel machine[J].FEBS Lett,2004,57l:93 [33] Dangond F,Hwang D,Camelo S,et a1.Molecular signature of late-stage human ALS revealed by expression profiling of post-mortem spinal cord gray matter[J].Physiol Genomics,2004,16:229 [34] Podgorelec Kokol , Stiglic B,Rozman I.Decision trees:an overview and their use in medicine.J Med Svst 2002:26:445-463 [35] 陈冰梅,樊晓平,周志明,李雪荣.支持向量机原理及展望.制造业自动化. 1009-0134(2010)12(上)-0136-03 [36] Williams RD,Hing SN,Greer BT,Whiteford CC,Wei JS,Natrajan R KelSey A,Rogers S, Campbell C,Pritchard-Jones K,Khan J.Progostic classfication of relapsing faVorable histology W ilIns tumor using cDNA microarray expression Profiling and support vector machines.Genes Chromosomes Cancer 2004;41:65:79
|