2023年 06期

基于局部敏感哈希的K邻近算法识别垃圾短信

Recognition of Spam Text Messages Based on Local Sensitive Hash-K Nearest Neighbor Algorithm

摘要(Abstract):

针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。

关键词(KeyWords): 垃圾短信识别;K邻近算法;局部敏感哈希;矩阵相似性;

基金项目(Foundation): 国家自然科学基金项目(61972102); 广东省教育厅重大专项(粤教2021ZDZX1070); 教育部协同育人项目(GZLGHT2021324); 广东省高等教育协会研究项目(22GQN37); 广州理工学院校本研究项目(2021XBZ03);

作者(Author): 樊继慧,滕少华

DOI: 10.13349/j.cnki.jdxbn.20230816.002

参考文献(References):

[1] 李根, 王科峰, 贲卫国, 等. 基于自分簇自学习算法的垃圾短信识别[J]. 吉林大学学报(信息科学版), 2021, 39(5): 583-588.

[2] 吴思慧, 陈世平.结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别[J]. 计算机系统应用, 2020, 29(9): 171-177.

[3] 李琼阳, 田萍. 基于主成分分析的朴素贝叶斯算法在垃圾短信用户识别中的应用[J]. 数学的实践与认识, 2019, 49(1): 134-138.

[4] 熊健, 邹东兴. 集成学习在样本不平衡垃圾短信识别上的应用[J]. 广州大学学报(自然科学版), 2018, 17(5): 1-7.

[5] 赖文辉, 乔宇鹏. 基于词向量和卷积神经网络的垃圾短信识别方法[J]. 计算机应用, 2018, 38(9): 2469-2476.

[6] 郝爽, 李国良, 冯建华, 等. 结构化数据清洗技术综述[J]. 清华大学学报(自然科学版), 2018, 58(12): 1037-1050.

[7] 蒋萍, 王子民. 基于NLP与Retinex的视频帧间FIF分析研究[J]. 计算机仿真, 2022, 39(7): 197-200, 232.

[8] 隆峻, 神显豪, 丁小军, 等. 量子遗传算法优化加权朴素贝叶斯复合语言文本分类[J].济南大学学报(自然科学版), 2022, 36(2): 136-141..

[9] 施寒瑜, 曲维光, 魏庭新, 等. 基于组合深度模型的现代汉语数量名短语识别[J]. 南京师大学报(自然科学版), 2022, 45(1): 127-135.

[10] 傅依娴, 芦天亮, 马泽良. 基于One-Hot的CNN恶意代码检测技术[J]. 计算机应用与软件, 2020, 37(1): 304-308, 333.

[11] 张军, 赖志鹏, 李学, 等. 基于新词发现的跨领域中文分词方法[J]. 电子与信息学报, 2022, 44(9): 3241-3248.

[12] LIU J Y, ZHAO Y H, ZHANG A X, et al. Spam short messages detection via mining social networks[J]. Journal of Computer Science and Technology, 2012, 27: 506-514.

[13] ZHOU X C, SHEN H B, HUANG Z Y, et al. Large margin classification for combatingdisguise attacks on spam filters[J]. Journal of Zhejiang University: Science C, 2012, 13(3): 187-195.

[14] GUO S W. An improved KNN based decision algorithm for vertical handover in heterogeneous wireless networks[C]// 2021 40th Chinese Control Conference (CCC), July 26-28, 2021, Shanghai, China: Vol. 6. New York: IEEE, 2021: 86-91.

[15] 杨彬, 韩庆文, 雷敏, 等. 基于改进的TF-IDF权重的短文本分类算法[J]. 重庆理工大学学报(自然科学版), 2016, 30(12): 108-113.

[16] 汪炫羲, 唐清岭, 蒋小菲. 基于KNN分类算法的n-γ脉冲信号甄别仿真研究[J]. 电子测量技术, 2022, 45(13): 164-170.

[17] 朱浩, 曹宁, 鹿浩, 等. 基于特征加权KNN的非侵入式负荷识别方法[J]. 电子测量技术, 2022, 45(8): 70-75.

[18] 巨金香, 张福泉, 黄锐. 基于烟花算法优化k均值聚类的教学质量评估模型[J]. 济南大学学报(自然科学版), 2022, 36(6):755-760.