一种改进的Kmeans聚类算法

一种改进的K-means聚类算法

一种改进的K-means聚类算法

摘要:K-means算法是最常用的一种基于划分的聚类算法,但该算法需要事先指定K值、随机选择初始聚类中心等的缺陷,从而影响了K-means聚类结果的稳定性。针对K-means算法中的初始聚类中心是随机选择这一缺点进行改进,利用提出的新算法

确定初始聚类中心,然后进行聚类,得出最终的聚类结果。实验证明,该改进算法比随机选择初始聚类中心的算法性能得到了提高,并且具有更高的准确性及稳定性。关键词:

欧氏距离;K-means;优化初始聚类中心

聚类分析[1](clustering)是数据挖掘研究的重要领域,借助聚类分析将大量的数据对

象聚成不同的类簇,使不同簇之间的相似度低,簇内的相似度高,它是一种无监督的学习算法。为了实现对数据对象的聚类,人们提出了不同的聚类算法。聚类算法主要分成

基于划分、基于密度、基于分层、基于网格和基于模型的五大类[2]。K-means(均值)聚类算法是典型的基于划分的聚类算法,同时也是应用最广泛的一种聚类算法。K-means聚类算法[3]主要针对处理大数据集,不但处理快速简单,而且算法具有高效性以及可伸缩性。但是K-means聚类算法存在K值需要事先指定、随机选择初始聚类中心等的局限性。人们针对K-means聚类算法的这些局限性提出了不同的改进算法。刘涛等人[4]提出了基于半监督学习的K-means聚类算法的研究,用粒子群算法以及迭代搜索的思想找到优质的聚类中心进行聚类;李飞等人[5]提出了基于遗传算法的全局搜索能力来解决初始聚类中心选择的敏感性问题。K-means聚类算法由于初始聚类

中心是随机选择的,容易造成算法会陷入局部最优解甚至是无解的情况,而聚类结果的好坏直接取决于初始聚类中心的选择。因此初始聚类中心的选择十分重要。本文主要针

对随机选择初始聚类中心这一缺点,提出了一种新的改进的K-means聚类算法。1传统的K-means聚类算法K-means聚类算法是解决聚类问题的一种经典算法,该算法具有简单、快速并且能够有效处理大数据集的特点。K-means聚类算法首先从n个数据对象中任意选取k个对象作为初始聚类中心;而对于所剩下的其他对象,则根据它

相关推荐
相关主题
热门推荐