摘要(Abstract):
对密度峰值聚类算法进行有效改进,计算各样本点之间的距离和各样本点局部密度,选择两者中较大的样本点作为聚类中心点,根据其余样本点与各中心点的距离设定样本点所属类别;引入K近邻算法对密度峰值聚类算法进行优化,求解各样本点的距离时只需要考虑其周围由邻近值决定的若干样本点,实现距离阈值的自动选取;根据距离矩阵计算样本点的密度,绘制决策图并选择簇内中心点,将剩余点根据密度值分配给离中心点距离最近的类;最后将K近邻-密度峰值聚类算法部署至Hadoop云计算平台,用于解决大规模数据聚类的问题。仿真结果表明,通过合理设置K近邻算法的近邻值k,K近邻-密度峰值聚类算法具有较好的大数据样本聚类性能,与常用聚类算法相比,该算法具有更高的聚类准确率和聚类效率,适用于大数据样本聚类。
关键词(KeyWords): 大数据;云计算;密度峰值聚类;K近邻算法;决策图
基金项目(Foundation): 国家自然科学基金项目(61702026);; 广东省高等教育学会项目(21GYB08);; 广州市哲学社会科学发展规划项目(2021GZGJ145);; 广东省高等学校特色专业建设项目(2020SJTSZY01);; 广东省普通高校特色创新类项目(2021KTSCX150);; 教育部高等教育司产学合作协同育人项目(202002030019)
作者(Author): 郑冬花,叶丽珠,隋栋,黄锦涛
DOI: 10.13349/j.cnki.jdxbn.20220623.002
参考文献(References):
[1] 章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7):1869-1882.
[2] HU F K,CHEN H B,WANG X F.An intuitionistic kernel-based fuzzy c-means clustering algorithm with local information for power equipment image segmentation[J].IEEE Access,2020,8:4500-4514.
[3] 孙倩,陈昊,李超.基于改进人工蜂群算法与MapReduce的大数据聚类算法[J].计算机应用研究,2020,37(6):1707-1710,1764.
[4] 赵恩毅,王瑞刚.基于Hadoop平台的聚类协同过滤推荐方法研究[J].计算机与数字工程,2019,47(10):2529-2533,2588.
[5] HU Q,ZHANG Q,SI X S,et al.Fault diagnosis based on multi-scale redefined dimensionless indicators and density peak clustering with geodesic distances[J].IEEE Access,2020,8:84777-84791.
[6] SHI Y Q,SHEN H.Anomaly detection for network flow using immune network and density peak[J].International Journal of Network Security,2020,22(2):337-346.
[7] NARAYANA G S,KOLLI K.Fuzzy K-means clustering with fast density peak clustering on multivariate kernel estimator with evolutionary multimodal optimization clusters on a large dataset[J].Multimedia Tools and Applications,2021,80:4769-4787.
[8] LU H,SHEN Z,SANG X S,et al.Community detection method using improved density peak clustering and nonnegative matrix factorization[J].Neurocomputing,2020,415:247-257.
[9] TU B,YANG X C,LI N Y,et al.Hyperspectral anomaly detection via density peak clustering[J].Pattern Recognition Letters,2020,129:144-149.
[10] XU L Z,ZHAO J,YAO Z F,et al.Density peak clustering based on cumulative nearest neighbors degree and micro cluster merging[J].Journal of Signal Processing Systems,2019,91:1219-1236.
[11] NAGAYAMA I,MIYAHARA A,SHIMABUKURO K.Balanced-kNN:a new lazy learning algorithm and its evaluation[J].IEEJ Journal of Industry Applications,2019,139(2):158-165.
[12] MA Y C,XIE Q,LIU Y J,et al.A weighted KNN-based automatic image annotation method[J].Neural Computing and Applications,2020,32(11):6559-6570.
[13] SENTHILNAYAKI B,VENKATALAKSHMI K,KANNAN A.Intrusion detection system using fuzzy rough set feature selection and modified KNN classifier[J].International Arab Journal of Information Technology,2019,16(4):746-753.
[14] 钱雪忠,姚琳燕.面向稀疏高维大数据的扩展增量模糊聚类算法[J].计算机工程,2019,45(6):75-81,88.
[15] 张海华,李楠楠.基于大数据K-means聚类算法的在线学习行为路径的研究[J].电子设计工程,2020,25(12):17-20,25.
[16] 林倩瑜.基于模糊卷积神经网络的大数据分类挖掘技术[J].重庆理工大学学报(自然科学),2019,33(10):121-126.