计算机软件与数据库研究
王寅同1,王建东1,陈海燕1,徐涛(1,2),孙博1
2015, 36(2): 215-219.
针对传统的代表点聚类算法对收缩因子的敏感性和聚类数不适应数据的动态变化等问题,综合研究凝聚型层次聚类问题,提出一种代表点的近似折半层次聚类算法——ABHCURE(Approximate Binary Hierarchical Clustering Using Representatives),有效地解决了离群数据点对聚类结果的影响和聚类数的难确定问题.首先,提出单层多簇合并模式来提高算法的执行效率.其次,为了避免选择离群数据成为簇的代表点破坏原始数据分布,引入准噪声机制收集各层的准噪声数据增强算法的鲁棒性.最后,通过动态最小聚类数确定方式实现聚类数需求和确定难度的折衷.实验结果表明,该算法不仅运行时间相对较短,具有灵活的聚类数,还可以得到更高精确的聚类结果.