Мониторинг аномальных состояний компьютерных систем средствами интеллектуального анализа данных системных журналов

350 руб

Журнал «Нейрокомпьютеры: разработка, применение» №2 за 2020 г.

Статья в номере:

Тип статьи: научная статья

DOI: 10.18127/j19998554-202002-05

УДК: 621.396, 681.3

Ключевые слова: Неструктурированные данные парсинг логов паттерн матрица признаков машинное обучение дерево принятия решений кросс-валидация.

Авторы:

О.И. Шелухин – д.т.н., профессор, зав. кафедрой «Информационная безопасность», Московский технический университет связи и информатики

E-mail: sheluhin@mail.ru

Д.В. Костин – аспирант, кафедра «Информационная безопасность», Московский технический университет связи и информатики

E-mail: d.v.kostin@mail.ru

Аннотация:

Постановка проблемы. Автоматизация контроля компьютерных систем средствами интеллектуального анализа неструктурированных данных системных журналов (логов) с целью обнаружения и диагностики аномальных состояний открывает новые перспективы развития служб технической поддержки для локализации возникающих проблем и точной их диагностики. Из-за постоянно растущего объема обрабатываемых данных для мониторинга аномальных состояний компьютерных систем используются современные методы интеллектуального анализа информации системных журналов.

Цель. Проанализировать эффективность алгоритмов машинного обучения, используемых для обнаружения аномальных (аварийных) состояний крупных компьютерных систем путем автоматизированной обработки большого объема неструктурированных данных системных журналов.

Результаты. Установлено, что система обнаружения аномалий с использованием машинного обучения должна состоять из следующих последовательных этапов: 1) сбор исходных данных; 2) анализ и обработка журнала; 3) извлечение признаков и числовое представление; 4) построение модели. Экспертным путём выделены события, существенно влияющие на работу компьютерной системы и являющиеся аномальными, связанными с проблемами прохождения трафика по сети, либо отказом в обслуживании. В качестве алгоритмов классификациипри машинном обучении использованы k-Nearest Neighbors, Logistic Regression, Gaussian Naive Bayes, Decision Tree Classifier, Random Forest, Gradient Boosting. Наилучшие количественные характеристики (величина ROC AUC), характеризующие достоверность обнаружения аномальных событий при бинарной классификации, демонстрируют алгоритмы классификации Logistic Regression (0,98) и Random Forest (0,90).

Практическая значимость. Предложенное алгоритмическое и программное решение может быть использовано в системах мониторинга качества функционирования компьютерных систем, диагностики возникающих проблем, а также раннего обнаружения появления рисков снижения качества функционирования компьютерной сети.

Страницы: 53-65

Для цитирования

Шелухин О.И., Костин Д.В. Мониторинг аномальных состояний компьютерных систем средствами интеллектуального анализа данных системных журналов. Нейрокомпьютеры: разработка, применение. 2020. Т. 22. № 2. С. 53–65. DOI: 10.18127/j19998554-202002-05

Список источников

Шелухин О.И., Рябинин В.С., Фармаковский М.А. Обнаружение аномальных состояний компьютерных систем средствами интеллектуального анализа данных системных журналов // Вопросы кибербезопасности. 2018. №2(26). DOI: 10.21681/2311-3456-2018-2-33-43
Zhu J., He S., Liu J., He P., Xie Q., Zheng Z., Lyu M.R. Tools and Benchmarks for Automated Log Parsing. To appear in International Conference on Software Engineering (ICSE). 2019.
Vaarandi R. A data clustering algorithm for mining patterns from event logs // IPOM. 2003.
Vaarandi R., Pihelgas M. Logcluster – a data clustering and pattern mining algorithm for event logs // CNSM. 2015. P. 1–7.
Fu Q., Lou J.-G., Wang Y., Li J. Execution anomaly detection in distributed systems through unstructured log analysis // ICDM. 2009. P. 149–158.
Tang L., Li T., Perng C.-S. LogSig: Generating system events from raw textual logs // CIKM. 2011. P. 785–794.
Hamooni H., Debnath B., Xu J., Zhang H., Jiang G., Mueen A. LogMine: fast pattern recognition for log analytics // CIKM. 2016. P. 1573–1582.
Mizutani M. Incremental mining of system log format // SCC. 2013. P. 595–602.
Shima K. Length matters: Clustering system log messages using length of words. arXiv:1611.03213. 2016.
Jiang Z.M., Hassan A.E., Flora P., Hamann G. Abstracting execution logs to execution events for enterprise applications // QSIC. 2008. P. 181–186.
Makanju A., Zincir-Heywood A., Milios E. Clustering event logs using iterative partitioning // KDD. 2009.
He P., Zhu J., Zheng Z., Lyu M.R. Drain: An online log parsing approach with fixed depth tree // ICWS. 2017. P. 33–40.
Du M., Li F. Spell: Streaming parsing of system event logs // ICDM. 2016. P. 859–864.
Xu W., Huang L., Fox A., Patterson D.A., Jordan M.I. Detecting large-scale system problems by mining console logs // SOSP. 2009. P. 117–132.
Lou J., Fu Q., Yang S., Xu Y., Li J. Mining invariants from console logs for system problem detection // ATC. 2010.
Du M., Li F., Zheng G., Srikumar V. Deeplog: Anomaly detection and diagnosis from system logs through deep learning // CCS. 2017. P. 1285–1298.
Nagaraj K., Killian C.E., Neville J. Structured comparative analysis of systems logs to diagnose performance problems // NSDI. 2012. P. 353–366.
Automated root cause analysis for spark application failures [Электронный ресурс]. – URL: https://www.oreilly.com/ideas/automated-root-cause-analysis-for-spark-application-failures
Du M., Li F., Zheng G., Srikumar V. Deeplog: Anomaly detection and diagnosis from system logs through deep learning // CCS. 2017. Р. 1285–1298.
Xu W., Huang L., Fox A., Patterson D., Jordan M.I. Detecting large-scale system problems by mining console logs // Proc. ACM Symposium on Operating Systems Principles (SOSP). 2009. P. 117–132.
Lou J.-G., Fu Q., Yang S., Li J., Wu B. Mining program workflow from interleaved traces // Proc. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD). 2010.
Yu X., Joshi P., Xu J., Jin G., Zhang H., Jiang G. CloudSeer: Workflow Monitoring of Cloud Infrastructures via Interleaved Logs // Proc. ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2016. P. 489–502.
He S., Zhu J., He P., Lyu M.R. Experience Report: System Log Analysis for Anomaly Detection // IEEE 27th International Symposium on Software Reliability Engineering. 2016. P. 207-218.
Шелухин О.И., Ерохин С.Д., Ванюшина А.В. Классификация IP –трафика методами машинного обучения / под ред. О.И. Шелухина. М.: Горячая линия – Телеком. 2018. 284 с.
Messaoudi S., Panichella A., Bianculli D., Briand L., Sasnauskas R. A search-based approach for accurate identification of log message formats // ICPC. 2018.
Android [Электронный ресурс]. – URL: https://www.android.com/
Apache Hadoop [Электронный ресурс]. – URL: http://hadoop.apache.org/
Linux [Электронный ресурс]. – URL: https://www.linux.org/
OpenSSH [Электронный ресурс]. – URL: https://www.openssh.com/ 30. Apache Spark [Электронный ресурс]. – URL: http://spark.apache.org/

Дата поступления: 16 января 2020 г.