Доменно-инвариантный метод классификации вредоносных программ на основе мультивариантного трансформера

500 руб

Журнал «Нейрокомпьютеры: разработка, применение» №2 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j19998554-202602-03

УДК: 004.032.26

Ключевые слова: Вредоносные программы статический анализ максимальное среднее расхождение глубокие нейронные сети функция потерь моментальные ансамбли калибровка вероятностей

Авторы:

А.А. Абедалхуссайн1, Е.В. Ляпунцова2
1, 2 Национальный исследовательский технологический университет «МИСиС» (Москва, Россия)

1 m2000009@edu.misis.ru, 2 liapuntsova.ev@misis.ru

Аннотация:

Постановка проблемы. В настоящее время наблюдается увеличение объемов подозрительных объектов и возникает необходимость принимать решения без запуска программ в изолированной среде при сохранении доверия к вероятностным оценкам и учете неопределенности. Данная работа посвящена проблеме статического выявления вредоносных программ по признакам, извлекаемым из файлов операционной системы.

Цель. Разработать и экспериментально обосновать доменно-инвариантный метод классификации вредоносных программ, объединяющий многовариантное представление объектов и механизмы калибровки вероятностных ответов.

Результаты. Предложен трансформер для многовариантного анализа табличных признаков, учитывающий априорные распределения данных (MV-DAFT), который согласованно интегрирует гистограммы байтов, характеристики заголовков исполняемых файлов и агрегированные статистики строк, использует состязательное обучение для выравнивания представлений различных наборов данных и дополнительную регуляризацию, снижающую расхождение распределений признаков. Использованы два класса данных: крупный синтетический корпус, позволяющий контролируемо задавать разрыв между классами, и репрезентативная выборка реальных исполняемых файлов для проверки переносимости. Проведено сравнение качества разработанного метода с современными ансамблевыми и нейросетевыми моделями по метрикам F1, ROC-AUC, PR-AUC и ошибке калибровки. Показано, что предложенный метод обеспечивает прирост точности и заметное улучшение калибровки вероятностей при сопоставимых затратах времени на классификацию.

Практическая значимость. Установлена возможность использовать доменно-инвариантной модели в системах антивирусной защиты и центрах мониторинга безопасности для обработки больших потоков файлов с более надежной оценкой риска.

Страницы: 34-43

Для цитирования

Абедалхуссайн А.А., Ляпунцова Е.В. Доменно-инвариантный метод классификации вредоносных программ на основе мультивариантного трансформера // Нейрокомпьютеры: разработка, применение. 2026. Т. 28. № 2. С. 34–43. DOI: https://doi.org/ 10.18127/j19998554-202602-03

Список источников

Brownlee J. Stacking ensemble machine learning with Python // Machine Learning Mastery. 2021 [Электронный ресурс] / URL: https://machinelearningmastery.com/stacking-ensemble-machine-learning-with-python/ (дата обращения: 28.07.2025).
Ganin Y., Lempitsky V. Domain-adversarial training of neural networks // Journal of Machine Learning Research. 2016. V. 17. P. 1–35. DOI: 10.48550/arXiv.1505.07818.
Ghiasi G., Lin T.-Y., Le Q.V. DropBlock: A regularization method for convolutional networks // arXiv. 2018 [Электронный ресурс] / URL: https://arxiv.org/abs/1810.12890 (дата обращения: 28.07.2025).
Gretton A., Borgwardt K.M., Rasch M.J. et al. A kernel two-sample test // Journal of Machine Learning Research. 2012. V. 13. P. 723–773.
Huang G., Li Y., Pleiss G. et al. Snapshot ensembles: Train 1, get M for free // arXiv. 2017 [Электронный ресурс] / URL: https://arxiv.org/ abs/1704.00109 (дата обращения: 28.07.2025).
Lin T.-Y., Goyal P., Girshick R. et al. Focal loss for dense object detection // arXiv. 2017 [Электронный ресурс] / URL: https://arxiv.org/ abs/1708.02002 (дата обращения: 28.07.2025).
Marsja E. Seaborn confusion matrix: How to plot and visualize in Python. 2023 [Электронный ресурс] / URL: https://www.marsja.se/ seaborn-confusion-matrix-how-to-plot-and-visualize-in-python/ (дата обращения: 28.07.2025).
PyTorch.torch.optim.lr_scheduler.CosineAnnealingLR / Официальная документация PyTorch. 2025 [Электронный ресурс] / URL: https://pytorch.org/docs/stable/generated/torch.optim.lr_scheduler.CosineAnnealingLR.html (дата обращения: 28.07.2025).
Scikit-learn. Probability calibration curves (sklearn.calibration.calibration_curve) / Scikit-learn User Guide. 2025 [Электронный ресурс] / URL: https://scikit-learn.org/stable/auto_examples/calibration/plot_calibration_curve.html (дата обращения: 28.07.2025).
Huang Y., Pepe M.S., Longton G. et al. A tutorial on calibration measurements and calibration models for clinical practice // Journal of the American Medical Informatics Association. 2020. V. 27. № 4. P. 621–633. DOI: 10.1093/jamia/ocz228.
Ле Д.Ч., Фам М.Х., Динь Ч.З., До Х.Ф. Применение алгоритмов машинного обучения для обнаружения вредоносных программ в операционной системе Windows с помощью PE-заголовка // Информационно-управляющие системы. 2022. № 4. С. 44–57. DOI: 10.31799/1684-8853-2022-4-44-57.
Выборнова О.Н., Пидченко И.А. Система обнаружения вредоносного программного обеспечения на основе технологии машинного обучения // Моделирование, оптимизация и информационные технологии. 2020. Т. 8. № 3. DOI: 10.26102/2310-6018/2020.30.3.042.

Дата поступления: 10.11.2025

Одобрена после рецензирования: 01.12.2025

Принята к публикации: 10.03.2026