Е.В. Гордеева1, Р.А. Кочкаров2, А.А. Рылов3
1–3 Финансовый университет при Правительстве РФ (Москва, Россия)
Постановка проблемы. В сфере обработки естественного языка имеется актуальная задача распознавания темы текста, для решения которой применяются основные методы предварительной обработки данных. Эта задача имеет большое значение в различных областях человеческой деятельности, связанных с обработкой текстовой информации.
Цель. Выбрать алгоритм машинного обучения и оптимизировать модель с использованием подбора гиперпараметра в задачах распознавания темы текста.
Результаты. Осуществлена предварительная обработка данных для анализа текстовой информации, а также подобрана наиболее подходящая модель машинного обучения для достижения наилучших результатов в задачах распознавания темы текста. Рассмотрены различные алгоритмы машинного обучения, включая наивную байесовскую классификацию, метод
k-ближайших соседей, дополненную наивную байесовскую классификацию и классификатор дерева решений. Предложена методика использования GridSearchCV для подбора оптимального гиперпараметра модели.
Практическая значимость. Использование предложенных методов предварительной обработки данных и подбора гиперпараметров позволит повысить эффективность моделей распознавания темы текста и получить более точные результаты.
Гордеева Е.В., Кочкаров Р.А., Рылов А.А. Анализ задачи распознавания темы текста с помощью машинного обучения // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 4. С. 7-15. DOI: https://doi.org/10.18127/j1999 8554-202304-02
- Ваш путеводитель по миру NLP. [Электронный ресурс] – Режим доступа: https://habr.com/ru/companies/otus/articles/705482/, дата обращения 18.04.2023.
- Основы Natural Language Processing для текста. [Электронный ресурс] – Режим доступа: https://habr.com/ru/com-pany/Voximplant/blog/446738/, дата обращения 18.04.2023.
- Обработка естественного языка. [Электронный ресурс] – Режим доступа: http://neerc.ifmo.ru/wiki/index.php?title=Обра-ботка_естественного_языка, дата обращения 18.04.2023.
- Jurafsky D., Martin J.H. Speech and Langauge Processing. 2nd ed. New Jersey: Prentice Hall. 2008. 1024 p.
- Иванова Г.С., Мартынюк П.А. Анализ нейросетевых языковых моделей при решении задач обработки текстовых данных // Нейрокомпьютеры: разработка, применение. 2023. Т. 25. № 2. С. 5–20. DOI 10.18127/j19998554-202302-01.
- Терехов В.И., Канев А.И. Система извлечения информации из текста для метаграфовой базы знаний // Динамика сложных систем – XXI век. 2020. Т. 14. № 3. С. 57–66. DOI 10.18127/j19997493-202003-05.
- Natural Language Processing with Python. [Электронный ресурс] – Режим доступа: http://www.nltk.org/book/ch00.html, дата обращения 13.05.2023.
- What is Tokenization in Natural Language Processing (NLP)? [Электронный ресурс] – Режим доступа: https://www.machinelearningplus.com/nlp/what-is-tokenization-in-natural-language-processing/, дата обращения 13.05.2023.
- TF-IDF – Term Frequency-Inverse Document Frequency. [Электронный ресурс] – Режим доступа: https://www.learndata-sci.com/glossary/tf-idf-term-frequency-inverse-document-frequency/, дата обращения 13.05.2023.