Журнал «Нелинейный мир» №3 за 2025 г.
Статья в номере:
Распознавание документов в различных условиях с помощью методов машинного обучения
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j20700970-202503-06
УДК: 004.93
Авторы:

Е.П. Догадина1, У.Ю. Суханова2, М.А. Ищенко3, Д.И. Веселов4

1–4 Финансовый университет при Правительстве Российской Федерации (Москва, Россия)
1 epdogadina@fa.ru, 2 uysukhanova@fa.ru, 3 maishchenko@fa.ru, 4 diveselov@fa.ru

Аннотация:

Постановка проблемы. Распознавание документов – это процесс автоматического анализа, классификации и извлечения информации из структурированных и неструктурированных материалов. Современные технологии машинного обучения и глубокого обучения позволяют значительно улучшить точность и скорость распознавания документов по сравнению с традиционными подходами. Однако реальные условия применения этих систем часто осложняются множеством факторов, таких как низкое качество сканирования, влияние внешних условий (освещение, ракурс, деформация бумаги), использование специализированных символов. Эти сложности требуют разработки более гибких и адаптивных методов машинного обучения, способных работать в широком спектре условий.

Цель. Создать систему, способную автоматически анализировать и распознавать документы в различных условиях с использованием гибридных систем, а именно: комбинации YOLOv10 с инструментами распознавания текста (такими как Tesseract, KerasOCR и EasyOCR).

Результаты. Показано, что комбинация YOLOv10 extra large с EasyOCR, Tesseract, KerasOCR обеспечивает достаточную точность распознавания на документах в различных условиях. При этом высокие метрики KerasOCR связаны с дополнительным тюнингом модели. Установлено, что использование YOLOv10 в сочетании с современными инструментами распознавания текста позволяет создать универсальную систему для анализа документов в широком спектре условий.

Практическая значимость. Разработанная система позволит снизить объем ручного труда, который требуется для обработки документов, тем самым освобождая сотрудников для выполнения более сложных и ценных задач. Использование машинного обучения и алгоритмов распознавания текстов также позволит снизить вероятность ошибок, связанных с человеческим фактором, увеличить скорость обработки данных и повысить точность и качество данных. Созданная система располагает огромным потенциалом применения в самых разных областях, где необходима быстрая и качественная обработка документов. Она представляет интерес для бухгалтерии и финансов, юридической сферы, сферы здравоохранения и государственных учреждений, а также логистики.

Страницы: 45-53
Для цитирования

Догадина Е.П., Суханова У.Ю., Ищенко М.А., Веселов Д.И. Распознавание документов в различных условиях с помощью методов машинного обучения // Нелинейный мир. 2025. Т. 23. № 3. С. 45–53. DOI: https://doi.org/10.18127/ j20700970-202503-06

Список источников
  1. Райзберг Б.А., Лозовский Л.Ш., Стародубцева Е.Б. Современный экономический словарь. Изд. 2-е., испр. М.: ИНФРА-М. 479 с. 1999.
  2. Dobler D.W., Burt D.N. Purchasing and Supply Management, Text and Cases (Sixth ed.). Singapore: McGraw-Hill. 1996. P. 70.
  3. Сироткин С.А., Кельчевская Н.Р. Бухгалтерский учет и анализ. М.: ИНФРА-М. 2019. С. 224. 355 с.
  4. Тишина Л.В. Разработка модуля интеллектуального распознавания документов средствами машинного зрения // Интерэкспо Гео-Сибирь. 2022. V. 7. № 2. P. 136–140.
  5. Андриянов Н.А., Андриянов Д.А. О важности аугментации данных при машинном обучении в задачах обработки изображений в условиях дефицита данных // Информационные технологии и нанотехнологии (ИТНТ-2020): Сб. трудов по материалам VI Междунар. конф. и молодежной школы. В 4-х томах. Самара, 26–29 мая 2020 года / Под ред. В.В. Мясникова. Том 2. Самара: Самарский национальный исследовательский университет им. акад. С.П. Королева. 2020. С. 383–388.
  6. Андриянов Н.А., Никитин П.В. Построение и оценка моделей машинного обучения: Учеб. пособие по дисциплине «Построение и оценка моделей машинного обучения» для студентов, обучающихся по направлению «Прикладная математика и информатика» всех профилей (программы подготовки магистров) // Финуниверситет, Департамент анализа данных и машинного обучения Факультета информационных технологий и анализа больших данных. М.: Финансовый университет. 2023. 1 файл (6,31 Мб).
  7. Zhao X., Xu M., Silamu W., Li Y. CLIP-Llama: A New Approach for Scene Text Recognition with a Pre-Trained Vision-Language Model and a Pre-Trained Language Model. Sensors 2024. V. 24. P. 7371. https://doi.org/10.3390/s24227371.
  8. Nikolaev K., Malafeev A. Russian Q&A method study: From Naive Bayes to convolutional neural networks. Lecture Notes in Computer Science. 2018. V. 11179 LNCS. P. 121–126. DOI 10.1007/978-3-030-11027-7_12. EDN XWJVLT.
  9. Enweiji M.Z., Lehinevych T., Glybovets А. Cross-language text classification with convolutional neural networks from scratch. Eureka: Physics and Engineering. 2017. № 2. P. 24–33. DOI 10.21303/2461-4262.2017.00304. EDN YPOYJD.
  10. Gallego N. P. D., Ilao J., Cordel M. Blind first-order perspective distortion correction using parallel convolutional neural networks. Sensors. 2020. V. 20. 17. P. 1–20. DOI 10.3390/s20174898. EDN BEKSSY.
  11. Ko K., Jang I., Choi J.H. et al. Stochastic decision fusion of convolutional neural networks for tomato ripeness detection in agricultural sorting systems. Sensors. 2021. V. 21. 3. P. 1–14. DOI 10.3390/s21030917. EDN DHJZNO.
  12. Lozhkin A.G., Maiorov K.N., Bozek P. Convolutional neural networks training for autonomous robotics. Management Systems in Production Engineering. 2020. V. 29. 1. P. 75–79. DOI 10.2478/mspe-2021-0010. EDN TYCRQO.
  13. Andriyanov N. Methods for preventing visual attacks in convolutional neural networks based on data discard and dimensionality reduction. Applied Sciences (Switzerland). 2021. V. 11. № 11. DOI 10.3390/app11115235. EDN PAAONS.
  14. Bratchenko I.A., Bratchenko L.A., Khristoforova Y.A. et al. Classification of skin cancer using convolutional neural networks analysis of Raman spectra. Computer Methods and Programs in Biomedicine. 2022. V. 219. P. 106755. DOI 10.1016/j.cmpb.2022.106755. EDN BCGDFW.
  15. Андриянов Н. А., Дементьев В. Е., Ташлинский А. Г. Обнаружение объектов на изображении: от критериев Байеса и Неймана – Пирсона к детекторам на базе нейронных сетей // Компьютерная оптика. 2022. Т. 46. № 1. С. 139–159. DOI 10.18287/2412-6179-CO-922.
  16. Ayachi R., Afif M., Said Ya. et al. Integrating Recurrent Neural Networks with Convolutional Neural Networks for Enhanced Traffic Light Detection and Tracking. Traitement du Signal. 2023. V. 40. № 6. P. 2577-2586. DOI 10.18280/ts.400620. EDN AWPIQZ.
  17. Fine-tuning OCR. URL: https://keras-ocr.readthedocs.io/en/latest/examples/fine_tuning_recognizer.html, дата обращения: 19.03.2025.
Дата поступления: 04.06.2025
Одобрена после рецензирования: 16.06.2025
Принята к публикации: 30.06.2025
Скачать