2022年 04期

基于频繁项集的多源异构数据并行聚类算法

Parallel Clustering Algorithm for Multi-source Heterogeneous Data Based on Frequent Itemsets


摘要(Abstract):

针对多源异构数据并行聚类算法存在并行聚类处理精度低、处理时间长的问题,提出基于频繁项集的多源异构数据并行聚类算法;通过确定数据库内频繁项集与支持度的数值,采用关联规则满足最小支持度阈值以及最小置信度阈值,利用极大元法挖掘最大频繁项集,构建相异度数据结构矩阵;利用平均加权法获取数据库内多源异构发射数据包,使用时间窗口和频繁项集挖掘出多源异构数据特征,获取信道传输功率谱密度;利用时间反转处理以及高维相空间重构方法,实现多源异构数据并行聚类。结果表明,该算法的多源异构数据并行聚类处理精度较高,能够有效缩短处理时间。

关键词(KeyWords): 频繁项集;多源异构数据;并行聚类;关联规则;相异度矩阵

基金项目(Foundation): 国家自然科学基金项目(61702164)

作者(Author): 赵春霞,赵营颖,宋学坤

DOI: 10.13349/j.cnki.jdxbn.20220310.001

参考文献(References):

[1] 文凯,耿小海,许萌萌.基于BTA算法的数据流频繁项集挖掘[J].计算机工程与设计,2020,41(8):2226-2230.

[2] 王斌,房新秀,魏天佑.基于差异节点集的加权频繁项集挖掘算法[J].计算机工程,2020,46(5):150-156.

[3] 张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56.

[4] 崔艺馨,陈晓东.Spark框架优化的大规模谱聚类并行算法[J].计算机应用,2020,40(1):168-172.

[5] 何倩,李双富,黄焕,等.一种海量数据快速聚类算法[J].北京邮电大学学报,2020,43(3):118-124.

[6] 高海燕,黄恒君,王宇辰.基于非负矩阵分解的函数型聚类算法[J].统计研究,2020,37(8):91-103.

[7] 张雄涛,蒋云良,潘兴广,等.基于迭代模糊聚类算法与K近邻和数据字典的集成TSK模糊分类器[J].电子与信息学报,2020,42(3):746-754.

[8] 孙乐乐,金宝轩.两步解码式空间矢量数据并行转换算法[J].浙江大学学报(工学版),2020,54(9):1768-1776,1804.

[9] 陆旭,陈毅红,熊章瑞,等.一种面向大数据分析的快速并行决策树算法[J].云南大学学报(自然科学版),2020,42(2):244-251.

[10] 王习特,朱宗梅,于雪苹,等.异构分布式环境中的并行离群点检测算法[J].湖南大学学报(自然科学版),2020,47(10):100-110.