О.И. Шелухин – д.т.н., профессор, зав. кафедрой «Информационная безопасность»,
Московский технический университет связи и информатики
E-mail: sheluhin@mail.ru
Д.В. Костин – аспирант,
Кафедра «Информационная безопасность»,
Московский технический университет связи и информатики E-mail: d.v.kostin@mail.ru
Постановка проблемы. Возрастающее значение анализа журнальных файлов в больших компьютерных системах требует разработки автоматизированных методов обработки неструктурированных данных, позволяющих извлекать соответствующую информацию из журнальных файлов большого объема без необходимости вмешательства человека. Анализ неструктурированных данных системных журналов показывает, что аномальные события в компьютерных системах могут быть представлены группами обусловленными различными причинами их возникновения. В результате задача идентификации типов аномальных состояний компьютерных систем сводится не к бинарной, а мультиклассовой классификации и может быть решена методами машинного обучения.
Учитывая, что количество аномальных событий, как правило, невелико, для обучения алгоритмов машинного обучения целесообразно использовать как «аномальные», так и «нормальные» события. В результате процесс классификации типа аномалии сводится к двухэтапной схеме. На первом этапе решается задача бинарной классификации, в результате которой формируются два класса: 1 – «аномалия» или 0 – «нормальное событие», а на втором этапе оценивается конкретный тип аномалии.
Цель. Исследовать эффективность алгоритмов машинного обучения при мультиклассовой классификации аномальных (аварийных) состояний крупных компьютерных систем путем автоматизированной обработки неструктурированных данных системных журналов.
Результаты. Оценка эффективности мультиклассовой двухэтапной схемы классификации с использованием перекрёстной проверки показала, что наилучшими показателями обладают алгоритмы Logistic Regression и Random Forest, которые также оказались наиболее эффективными для задачи бинарной классификации при обнаружении аномальных состояний. Установлено, что подобные классификаторы хуже работают при определении смешанных событий.
Практическая значимость. Для повышения эффективности двухэтапной процедуры предложено использовать дополнительный «логирующий компонент», содержащий дополнительную информацию: время события, имя потока, программный компонент, который сгенерировал сообщение и так далее. Показано, что использование подобного дополнительного атрибута позволяет улучшить качественные показатели классификации в среднем до 10%. Наибольший рост эффективности наблюдается для алгоритмов k-nearest neighbors и Logistic Regression.
Шелухин О.И., Костин Д.В. Классификация аномальных состояний компьютерных систем средствами интеллектуального анализа системных журналов. Нейрокомпьютеры: разработка, применение. 2020. Т. 22. № 1. С. 66–76. DOI: 10.18127/j19998554-202001-07.
- Шелухин О.И., Рябинин В.С., Фармаковский М.А. Обнаружение аномальных состояний компьютерных систем средствами интеллектуального анализа данных системных журналов // Вопросы кибербезопасности. 2018. Т. 26. № 2. С.33-43. DOI: 10.21681/2311-3456-2018-2-33 43
- Шелухин О.И., Рябинин В.С. Обнаружение аномалий больших данных неструктурированных системных журналов / Вопросы кибербезопасности. 2019. Т. 30. № 2. С. 36-41. DOI 10.21681/2311-3456-2019-2-36-41
- Manning C.D., Raghavan P., Schutze H. Scoring, term weighting, and the vector space model. Introduction to Information Retrieval. 2008. p. 100
- Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. V. 60. № 5. P. 493-502.
- Шелухин О.И., Ерохин С.Д., Ванюшина А.В. Классификация IP –трафика методами машинного обучения / Под ред. О.И. Шелухина. М.: Горячая-линия – Телеком. 2018. 284 с.
- Bishop C.M. Pattern Recognition and Machine Learning. Springer. 2006.
- Zwietasch T. Detecting Anomalies in System Log Files using Machine Learning Techniques. University of Stuttgart. 2014. http://dx.doi.org/10.18419/opus-3454
- He P., Zhu J., He S., Li J., Lyu M.R. An evaluation study on log parsing and its use in log mining // Proc. of the 46th Annual IEEE/IFIP International Conference on Dependable Systems and Networks. 2016. P.654-661. DOI 10.1109/DSN.2016.66
- Кажемский М.А., Шелухин О.И. Многоклассовая классификация сетевых атак на информационные ресурсы методами машинного обучения // Труды учебных заведений связи. 2019. Т. 5. № 1. С. 107–115. DOI 10:31854/1813-324X2019-5-1-107-115
- Ting K.M. Encyclopedia of machine learning. Springer. 2011
- Harris D., Harris S. Digital design and computer architecture. 2nd ed. San Francisco, Calif.: Morgan Kaufmann. 2007. p. 129.