搜索
查看: 2972|回复: 0

聚类分析cluster原理和界面操作

[复制链接]

12

主题

26

帖子

592

积分

版主

Rank: 7Rank: 7Rank: 7

积分
592
发表于 2017-6-24 10:57:25 | 显示全部楼层 |阅读模式
      聚类含义:对于大量数据集,按数据内在相似性将数据划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。一般没有类别的样本聚成不同的组,这样的一组数据对象的集合叫做簇。而聚分析是将样品或变量按照它们的性质上相似程度进行分类的多元统计分析方法。一般是把每个样品的ID看做是多维空间上的一个点,在多维坐标中定义点与点,类与类之间的距离,用用点与点间距离来描述各样本中ID之间的亲疏关系。然后再对其计算样品或变量的相似系数,再然系数来描述样品或变量之间的亲疏关系。一、聚类数据变换:
1.标准化:标准化变换是对变量属性进行变换处理,对数进行中心化,然后再除以标准差。
可以用R语言实现:用scale这个来实现的。如:
data<-c(287290000,570220000,710200000,122910000,231360000,75037000)
> scale(data,center=T,scale=T)
           [,1]
[1,] -0.1795730
[2,]  0.9359237
[3,]  1.4878172
[4,] -0.8276674
[5,] -0.4000860
[6,] -1.0164144
attr(,"scaled:center")
[1] 332836167
attr(,"scaled:scale")
[1] 253635888

下面就是中心化的结果。
> scale(data,center=T,scale=T)
           [,1]
[1,] -0.1795730
[2,]  0.9359237
[3,]  1.4878172
[4,] -0.8276674
[5,] -0.4000860
[6,] -1.0164144

2.取对数:主要是对初始的数据取对数(log)。可以将数据变换成线性数据结构。
二、聚类分析种类:有系统聚类分析、动态聚类分析、模糊聚分析、图论聚类分析
1、系统聚类思想:把n个样品看成是p个维空间的点,而把每个变量看作p维空间的坐标,根据空间上点与点距离来进行分类。(常用方法有:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离平方和法)
2、动态聚类分析:要选择凝聚点,或说是批有代表性的点,是形成类的中心。其计算过程是收敛的。(按批修改法,逐个修改法、混合法,对于每次的修改对应函数缩小,趋于合理并且分类函数最终趋于定值)
3、模糊聚类法:是根据研究对象本身的属性而构造一个模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。
4、图论聚类法:思想是最小支撑树,一个多变量的样品可用多维空间中的一个来代表,在多维空间中,如果样品点某些区域密度很高,而在另一些区域密度很低,且高密度区域和低密度区域所分隔,这样能形成最自然、最能体现样品分布结构聚类。
三、用软件操作cluster:HemI_headmap


数据标准化后导入数据

下面是导出数据图片,当然可以根据自己的需来选择

软件操作界面

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-16 07:45 , Processed in 0.030467 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.