2021年 01期

Application of Improved k-Nearest Neighbor Algorithm in Massive Data Mining


摘要(Abstract):

为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行有效裁剪优化,实现样本分布均衡,然后对经过样本均衡处理的数据样本执行传统k最邻近算法,根据权重获得分类结果,最后对不同k值的k最邻近算法进行实例仿真。结果表明,在相同的数据样本环境中,相比于其他分类算法,采用改进的k最邻近算法的分类准确度和分类效率更高。

关键词(KeyWords): 数据挖掘;样本优化;k最邻近算法;样本均衡;邻域密集区域

基金项目(Foundation): 国家自然科学基金项目(61741303);; 广西重点研发计划项目(2017AC05027);; 广西自然科学基金项目(2018GXNSFAA294061);; 广西嵌入式技术与智能系统重点实验室项目(2017-2-5);; 福建省中青年教师教育科研项目(JT180867);; 福建省本科高校教育教学改革研究项目(FBJG20190171)

作者(Author): 黄文秀,唐超尘,神显豪,周术诚

DOI: 10.13349/j.cnki.jdxbn.20200817.001

参考文献(References):

[1] WANG F L,GUO Q,LEI J,et al.Convolutional recurrent neural networks with hidden Markov model bootstrap for scene text recognition[J].IET Computer Vision,2017,11(6):497-504.

[2] 高超,许翰林.基于支持向量机的不均衡文本分类方法[J].现代电子技术,2018,41(15):191-194.

[3] 吴国文,庄千料.一种改进的增量式贝叶斯文本分类算法[J].计算机应用与软件,2017,34(6):226-229,249.

[4] ZHANG S C,LI X L,ZONG M,et al.Learning k for KNN classification[J].ACM Transactions on Intelligent Systems and Technology,2017,8(3):43.

[5] ASMA G,ARIS P,ZARDAD K,et al.Ensemble of a subset of kNN classifiers[J].Advances in Data Analysis and Classification,2018,12(4):827-840.

[6] 黄贤英,熊李媛,刘英涛,等.基于类别特征改进的KNN短文本分类算法[J].计算机工程与科学,2018,40(1):148-154.

[7] 温雪岩,陈家男,景维鹏,等.面向不平衡数据集分类模型的优化研究[J].计算机工程,2018,44(4):268-273,293.

[8] 余胜龙,赵红.基于样本邻域保持的代价敏感特征选择[J].数据采集与处理,2018,33(2):317-322.

[9] 闫珍,皮德常,吴文昊.高维稀疏数据频繁项集挖掘算法的研究[J].计算机科学,2011 38(6):183-186.

[10] 谢攀,邓珍荣,朱益立.结合文本信息量和聚类的文本裁剪算法[J].计算机工程与设计,2018,39(3):880-884.

[11] 郭华平,周俊,邬长安,等.面向非平衡类问题的k近邻分类算法[J].计算机应用,2018,38(4):955-959,977.

[12] 陈慧,田大钢,冯成刚.多种算法对不同中文文本分类效果比较研究[J].软件导刊,2019,18(5):73-78.

[13] NAUMAN T W,THOMPSON J A.Semi-automated disaggregation of conventional soil maps using knowledge driven data mining and classification trees[J].Geoderma,2014,213(1):385-399.

[14] CHAO S C,LIN K C,CHEN M S.Flow classification for software-defined data centers using stream mining[J].IEEE Transactions on Services Computing,2019,12(1):105-116.

[15] 魏茂胜.数据挖掘中的分类算法综述[J].网络安全技术与应用,2017(6):65-66.