И.А. Чижова1, Е.И. Кублик2, М.С. Чипчагов3, А.И. Лабинцев4
1-4 Финансовый университет при Правительстве Российской Федерации (Москва, Россия)
2 Российский технологический университет МИРЭА (Москва, Россия)
Постановка проблемы. В настоящее время общение и обмен информацией все чаще осуществляется в электронной форме. Однако основной проблемой так называемого электронного обмена является такое неэтичное использование информации, как анонимная и массовая рассылка контента (спама), который не запрашивался пользователем. Поэтому в связи с постоянным увеличением количества электронной информации фильтрация спама приобретает особое значение. Большинство существующих решений данной проблемы основано на одном из алгоритмов машинного обучения, что снижает точность обнаружения ненужного контента. Следовательно, актуальным является использование совокупности методов классификации сообщений, т.е. разделение на спам и не спам.
Цель. Рассмотреть особенности классификации спама различного вида с целью повышения эффективности фильтрации спама на основе методов машинного обучения в сообщениях различной природы.
Результаты. Предложены модели, основанные на наборах данных, которые используются для идентификации SMS-спама, спама в письмах-email и страниц веб-спама в коммерческих и научных целях. Проведен предварительный анализ данных каждого из выбранных наборов данных и продемонстрированы основные способы применения методов машинного обучения. Выполнен анализ моделей с набором показателей, включающих в себя метрики accuracy, оценку F1, точность, полноту, площадь под ROC-кривой (ROC AUC) и среднюю абсолютную ошибку. На основе оценок рассматриваемых моделей выявлен наилучший метод для идентификации спама.
Практическая значимость. Результаты проведенного исследования показали, что сравнительный анализ моделей классификации сообщений позволяет значительно улучшить обнаружение спама и достичь точности его обнаружения до 99% на заданных наборах данных.
Чижова И.А., Кублик Е.И., Чипчагов М.С., Лабинцев А.И. Повышение эффективности фильтрации спама на основе методов машинного обучения в сообщениях различной природы // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 5.
С. 5-18. DOI: https://doi.org/ 10.18127/j19998554-202205-01
- Низамитдинов А.И., Иномов Б.Б. Алгоритмы машинного обучения для классификации текста // Вестник ПИТТУ имени академика М.С. Осими. 2020. № 1(14). С. 27-35.
- Aljedani N., Alotaibi R., Taileb M. HMATC: Hierarchical multi-label Arabic text classification model using machine learning // Egyptian Informatics Journal. September 2020. Available online 22.
- Bommert A., Sun X., Bischl B., Rahnenführer J., Lang M. Benchmark for filter methods for feature selection in high-dimensional classification data // Computational Statistics and Data Analysis. March 2020. V. 143. Р. 106839.
- Dada E.G., Bassi J.S., Chiroma H., Abdulhamid S.M., Adetunmbi A.O., Ajibuwa O.E. Machine learning for email spam filtering: review, approaches and open research problems // Heliyon. June 2019. V. 5. Is. 6.
- Dedeturk B.K., Akay B. Spam filtering using a logistic regression model trained by an artificial bee colony algorithm // Applied Soft Computing. June 2020. V. 91. Р. 106229.
- Dialeab M., Celika T., Van Der Walt C. Unsupervised feature learning for spam email filtering // Computers and Electrical Engineering. March 2019. V. 74. P. 89-104.
- El Hindi K.M., Aljulaidan R.R., AlSalman H. Lazy fine-tuning algorithms for naïve Bayesian text classification // Applied Soft Computing Journal. November 2020. V. 96. Р. 106652.
- Extended Arabic Web Spam Data. https://sites.google.com/site/heiderawahsheh/home/web-spam-2011-datasets/arabic-web-spam-2011-dataset, last accessed 2020/12/21.
- Fang W., Luo H., Xud S., Love P.E.D., Lu Z., Ye C. Automated text classification of near-misses from safety reports: An improved deep learning approach // Advanced Engineering Informatics. April 2020. V. 44. Р. 101060.
- Kim J., Jang S., Park E., Choi S. Text classification using capsules // Neurocomputing. 1 February 2020. V. 376. P. 214-221.
- Kou G., Yang P., Peng Y., Xiao F., Chen Y., Alsaadi F.E. Evaluation of feature selection methods for text classification with small datasets using multiple criteria decision-making methods // Applied Soft Computing Journal. January 2020. V. 86. Р. 105836.
- Li Q., Li P., Mao K., Yat-Man Lo E. Improving convolutional neural network for text classification by recursive data pruning // Neurocomputing. 13 November 2020. V. 414. P. 143-152.
- Li J., Chen Z., Wang Z., Chang Y.I. Active learning in multiple-class classification problems via individualized binary models // Computational Statistics and Data Analysis. May 2020. V. 145. Р. 106911.
- Liang D., Yi B. Two-stage three-way enhanced technique for ensemble learning in inclusive policy text classification // Information Sciences. 8 February 2021. V. 547. P. 271-288.
- Liu X., Mou L., Cui H., Lu Z., Song S. Finding decision jumps in text classification // Neurocomputing. 2 January 2020. V. 371. P. 177-187.
- Luca S.E., Pimentel M.A.F., Watkinson P.J., Clifton D.A. Point process models for novelty detection on spatial point patterns and their extremes // Computational Statistics and Data Analysis. September 2018. V. 125. P. 86-103.
- Méndez J.R., Cotos-Yañez T.R., Ruano-Ordás D. A new semantic-based feature selection method for spam filtering // Applied Soft Computing Journal. March 2019. V. 76. P. 89-104.
- Roy P.K., Singh J.P., Banerjee S. Deep learning to filter SMS Spam // Future Generation Computer Systems. January 2020. V. 102. P. 524-533.
- Trittenbach H., Englhardt A., Böhm K. An overview and a benchmark of active learning for outlier detection with one-class classifiers // Expert Systems with Applications. 15 April 2021. V. 168. Р. 114372.
- Wang R., Ridley R., Su X., Qu W., Dai X. A novel reasoning mechanism for multi-label text classification // Information Processing and Management. March 2021. V. 58. Is. 2. Р. 102441.
- Watanabe W.M., Felizardo K.R., Candido A. (Jr.), de Souza E.F., de Campos Neto J.E., Vijaykumar N.L. Reducing efforts of software engineering systematic literature reviews updates using text classification // Information and Software Technology. December 2020. V. 128. Р. 106395.
- Xu J., Du Q. TextTricker: Loss-based and gradient-based adversarial attacks on text classification models // Engineering Applications of Artificial Intelligence. June 2020. V. 9. Р.103641.
- Zhan Z., Hou Z., Yang Q., Zhao J., Zhang Y., Hu C. Knowledge attention sandwich neural network for text classification // Neurocomputing. 7 September 2020. V. 406. P. 1-11.
- Березкин Д.В., Ши Жуньфан, Ли Тэнцзяо. Анализ методов машинного обучения для обнаружения мошеннических транзакций с банковскими картам // Динамика сложных систем. 2021. T. 15. № 2. С. 5−13.