Анализ задачи распознавания темы текста с помощью машинного обучения

350 руб

Журнал «Нейрокомпьютеры: разработка, применение» №4 за 2023 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j19998554-202304-02

УДК: 519.67

Ключевые слова: Распознавание темы текста модели машинного обучения предварительная обработка данных оптимизация моделей естественный язык подбор гиперпараметров

Авторы:

Е.В. Гордеева1, Р.А. Кочкаров2, А.А. Рылов3

1–3 Финансовый университет при Правительстве РФ (Москва, Россия)

Аннотация:

Постановка проблемы. В сфере обработки естественного языка имеется актуальная задача распознавания темы текста, для решения которой применяются основные методы предварительной обработки данных. Эта задача имеет большое значение в различных областях человеческой деятельности, связанных с обработкой текстовой информации.

Цель. Выбрать алгоритм машинного обучения и оптимизировать модель с использованием подбора гиперпараметра в задачах распознавания темы текста.

Результаты. Осуществлена предварительная обработка данных для анализа текстовой информации, а также подобрана наиболее подходящая модель машинного обучения для достижения наилучших результатов в задачах распознавания темы текста. Рассмотрены различные алгоритмы машинного обучения, включая наивную байесовскую классификацию, метод
k-ближайших соседей, дополненную наивную байесовскую классификацию и классификатор дерева решений. Предложена методика использования GridSearchCV для подбора оптимального гиперпараметра модели.

Практическая значимость. Использование предложенных методов предварительной обработки данных и подбора гиперпараметров позволит повысить эффективность моделей распознавания темы текста и получить более точные результаты.

Страницы: 7-15

Для цитирования

Гордеева Е.В., Кочкаров Р.А., Рылов А.А. Анализ задачи распознавания темы текста с помощью машинного обучения // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 4. С. 7-15. DOI: https://doi.org/10.18127/j1999 8554-202304-02

Список источников

Ваш путеводитель по миру NLP. [Электронный ресурс] – Режим доступа: https://habr.com/ru/companies/otus/articles/705482/, дата обращения 18.04.2023.
Основы Natural Language Processing для текста. [Электронный ресурс] – Режим доступа: https://habr.com/ru/com-pany/Voximplant/blog/446738/, дата обращения 18.04.2023.
Обработка естественного языка. [Электронный ресурс] – Режим доступа: http://neerc.ifmo.ru/wiki/index.php?title=Обра-ботка_естественного_языка, дата обращения 18.04.2023.
Jurafsky D., Martin J.H. Speech and Langauge Processing. 2nd ed. New Jersey: Prentice Hall. 2008. 1024 p.
Иванова Г.С., Мартынюк П.А. Анализ нейросетевых языковых моделей при решении задач обработки текстовых данных // Нейрокомпьютеры: разработка, применение. 2023. Т. 25. № 2. С. 5–20. DOI 10.18127/j19998554-202302-01.
Терехов В.И., Канев А.И. Система извлечения информации из текста для метаграфовой базы знаний // Динамика сложных систем – XXI век. 2020. Т. 14. № 3. С. 57–66. DOI 10.18127/j19997493-202003-05.
Natural Language Processing with Python. [Электронный ресурс] – Режим доступа: http://www.nltk.org/book/ch00.html, дата обращения 13.05.2023.
What is Tokenization in Natural Language Processing (NLP)? [Электронный ресурс] – Режим доступа: https://www.machinelearningplus.com/nlp/what-is-tokenization-in-natural-language-processing/, дата обращения 13.05.2023.
TF-IDF – Term Frequency-Inverse Document Frequency. [Электронный ресурс] – Режим доступа: https://www.learndata-sci.com/glossary/tf-idf-term-frequency-inverse-document-frequency/, дата обращения 13.05.2023.

Дата поступления: 01.06.2023

Одобрена после рецензирования: 15.06.2023

Принята к публикации: 26.07.2023