Г.С. Иванова1, Ю.О. Фокина2
1,2 МГТУ им. Н.Э. Баумана (Москва, Россия)
Постановка проблемы. Большинство существующих антифрод-систем базируются на применении сигнатурных правил, а не алгоритмов машинного обучения, что существенно снижает качество выявления мошенничества при операциях по банковским картам. Для решения проблемы обнаружения мошенничества с банковскими картами, которое представляет собой интеллектуальный анализ данных, необходим предварительный анализ исходных данных - исследовательский анализ данных (EDA, англ. Exploratory Data Analysis), т.е. предварительное исследование датасета с целью определения его основных характеристик, взаимосвязей между признаками, а также определение границ для исключения выбросов, позволяющее предварительно скорректировать датасет и улучшить качество разрабатываемой антифрод-системы.
Цель. Провести анализ данных (EDA) датасета с операциями по банковским картам клиентов, предназначенного для обучения антифрод-системы.
Результаты. Проведен EDA датасета, содержащего информацию о банковских операциях клиентов банка. Выявлен значительный дисбаланс классов мошеннических и легитимных транзакций. Выбраны переменные, необходимые для обучения модели. Определены границы значений, которые целесообразно считать выбросами. Показано, что EDA датасета позволяет более эффективно использовать имеющиеся для обучения данные и наилучшим образом подобрать модель.
Практическая значимость. Полученные результаты могут быть использованы для разработки системы фрод-мониторинга на основе алгоритмов машинного обучения, использующих рассмотренный набор общедоступных данных.
Иванова Г.С., Фокина Ю.О. Исследовательский анализ данных датасета с операциями по банковским картам // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 4. С. 28-38. DOI: https://doi.org/ 10.18127/j19998554-202204-03
- Александров В.В., Пономаренко С.В., Бирюков М.В. Предотвращение мошеннических действий по банковским картам с по-мощью систем фрод-мониторинга // Вестник Белгородского университета кооперации, экономики и права. 2017. С. 225–233.
- Лукманова К.А. Анализ систем мониторинга транзакций // XIV Всеросс. молодежная науч. конф. «Мавлютовские чтения». Уфа: УГАТУ. 2020. № 5.3.24.
- Иванова Г.С., Головков А.А., Лоншакова К.А. Анализ методов предобработки рентгеновских снимков // Технологии инженерных и информационных систем. 2018. № 3. С. 79-85. EDN YLAFOX.
- Власов А.И., Папулин С.Ю. Анализ данных с использованием гистограммной модели комбинации признаков // Нейрокомпьютеры: разработка, применение. 2019. Т. 21. № 5. С. 18-27. DOI: 10.18127/j19998554-201905-02.
- Carl Anderson. Creating a Data-Driven Organization. O`Reily Media. 2015. Р. 83-86.
- Exploratory Data Analysis. [Электронный ресурс]. URL: https://www.ibm.com/cloud/learn/exploratory-data-analysis (дата обращения 10.05.2022).
- Набор данных «Credit Card Fraud Detection». [Электронный ресурс]. URL: https://www.kaggle.com/mlg-ulb/creditcardfraud (дата обращения 10.05.2022).
- Анализ главных компонент (РСА). [Электронный ресурс]. URL: https://www.helenkapatsa.ru/mietod-ghlavnykh-komponient/ (дата обращения 04.10.2021).
- Исследовательский анализ данных: практическое руководство и шаблон для структурированных данных. [Электронный ресурс]. URL: https://www.machinelearningmastery.ru/exploratory-data-analysis-eda-a-practical-guide-and-template-for-structu-red-data-abfbf3ee3bd9 (дата обращения 10.05.2022).
- EDA with Pandas. [Электронный ресурс]. URL: https://www.kaggle.com/code/emstrakhov/eda-with-pandas/notebook (дата обращения 10.05.2022).
- Data Mining (Методы добычи данных). [Электронный ресурс]. URL: http://statsoft.ru/home/textbook/modules/stdat-min.html#eda (дата обращения 10.05.2022).
- Exploratory Data Analysis: Functions, Types & Tools. [Электронный ресурс]. URL: https://analyticsindiamag.com/exploratory-data-analysis-functions-types-tools/ (дата обращения 10.05.2022).
- Exploratory data analysis. [Электронный ресурс]. URL: https://datascienceguide.github.io/exploratory-data-analysis (дата обращения 10.05.2022).
- Как наглядно показать Data Science: визуализация больших данных. [Электронный ресурс]. URL: https://cherno-brovov.ru/articles/kak-naglyadno-pokazat-data-science-vizualizaciya-bolshih-dannyh.html (дата обращения 10.05.2022).
- Чокой В.З. Обработка и разведочный анализ числовых массивов данных // Crede Experto: транспорт, общество, образование, язык. 2017. № 3. URL: https://cyberleninka.ru/article/n/obrabotka-i-razvedochnyy-analiz-chislovyh-massivov-dannyh (дата обращения: 17.05.2022).
- Detecting Credit Card Fraud Using Machine Learning. [Электронный ресурс]. URL: https://towardsdatascience.com/detecting-credit-card-fraud-using-machine-learning-a3d83423d3b8 (дата обращения 10.05.2022).