首页 > SPSS聚类分析:K均值聚类分析

SPSS聚类分析:K均值聚类分析

SPSS聚类分析:K均值聚类分析

一、概念:(分析-分类-K均值聚类)

   1、此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识。不过,该算法要求您指定聚类的个数。如果知道,您可以指定初始聚类中心。您可以选择对个案分类的两种方法之一,要么迭代地更新聚类中心,要么只进行分类。可以保存聚类成员、距离信息和最终聚类中心。还可以选择指定一个变量,使用该变量的值来标记个案输出。您还可以请求分析方差F统计量。

二、聚类中心(分析-分类-K均值聚类)

为获得最佳有效性,可取一个个案样本并选择迭代和分类方法确定聚类中心。选择最终聚类中心另存为。然后恢复整个数据文件并选择仅分类作为方法,并选择读取初始聚类中心来源以使用该样本估计的中心对整个文件分类。您可以写入和读取文件或数据集。可以在同一会话中继续使用数据集,但不会将其另存为文件,除非在会话结束之前明确将其保存为文件。数据集名称必须符合变量命名规则。

三、迭代(分析-分类-K均值聚类-迭代)

   注意:只有在您从“K均值聚类分析”对话框中选择了迭代和分类方法的情况下,这些选项才可用。◎最大迭代次数。限制K均值算法中的迭代次数。即使尚未满足收敛准则,达到迭代次数之后迭代也会停止。此数字必须在1到999之间。◎收敛性标准。确定迭代何时停止。它表示初始聚类中心之间的最小距离的比例,因此必须大于0且小于等于1。例如,如果准则等于0.02,则当完整的迭代无法将任何聚类中心移动任意初始聚类中心之间最小距离的2%时,迭代停止。◎使用运行均值。允许您请求在分配了每个个案之后更新聚类中心。如果不选择此选项,则会在分配了所有个案之后计算新的聚类中心。

四、保存(分析-分类-K均值聚类-保存)

1、聚类成员。创建指示每个个案最终聚类成员的新变量。新变量的值范围是从1到聚类数。

2、与聚类中心的距离。创建指示每个个案与其分类中心之间的欧式距离的新变量。

五、选项:(分析-分类-K均值聚类-选项)

   统计量。您可以选择以下统计量:初始聚类中心、ANOVA表以及每个个案的聚类信息。◎初始聚类中心.每个聚类的变量均值的第一个估计值。默认情况下,从数据中选择与聚类数相等的分布良好的多个个案。初始聚类中心用于第一轮分类,然后再更新。◎ANOVA表.显示方差分析表,该表包含每个聚类变量的一元F检验。F检验只是描述性的,不应解释生成的概率。如果所有个案均分配到单独一个聚类,则ANOVA表不显示。◎每个个案的聚类信息.显示每个个案的最终聚类分配,以及该个案和用来对个案分类的聚类中心之间的Euclidean距离。还显示最终聚类中心之间的欧氏距离。

转载于:https://www.cnblogs.com/amengduo/p/9586686.html

更多相关:

  • 点云PCL免费知识星球,点云论文速读。 标题:PAIRWISE LINKAGE FOR POINT CLOUD SEGMENTATION 作者:Lu, Xiaohu and Yao, Jian and Tu 星球ID:Lionheart|点云配准 欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈分享快乐。 ●论文摘要...

  •     k均值聚类:---------一种硬聚类算法,隶属度只有两个取值0或1,提出的基本根据是“类内误差平方和最小化”准则;  模糊的c均值聚类算法:-------- 一种模糊聚类算法,是k均值聚类算法的推广形式,隶属度取值为[0 1]区间内的任何一个数,提出的基本根据是“类内加权误差平方和最小化”准则; 这两个方法都是迭代求...

  • 本文目的 最近一直在使用R进行hcluster计算,主要采用了一些R自带的距离公式和cophenetic距离验证聚类的质量。其中R自带的hclust方法不支持cosine函数,如果需要下载R的扩展,要下载许多关联的库,所以自己编写了一个简单的cosine函数,并且使用了R的proxy扩展(距离计算框架),计算向量距离。内容涉及比较多,...