350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №4 за 2023 г.
Статья в номере:
Анализ задачи распознавания темы текста с помощью машинного обучения
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j19998554-202304-02
УДК: 519.67
Авторы:

Е.В. Гордеева1, Р.А. Кочкаров2, А.А. Рылов3

1–3 Финансовый университет при Правительстве РФ (Москва, Россия)

Аннотация:

Постановка проблемы. В сфере обработки естественного языка имеется актуальная задача распознавания темы текста, для решения которой применяются основные методы предварительной обработки данных. Эта задача имеет большое значение в различных областях человеческой деятельности, связанных с обработкой текстовой информации.

Цель. Выбрать алгоритм машинного обучения и оптимизировать модель с использованием подбора гиперпараметра в задачах распознавания темы текста.

Результаты. Осуществлена предварительная обработка данных для анализа текстовой информации, а также подобрана наиболее подходящая модель машинного обучения для достижения наилучших результатов в задачах распознавания темы текста. Рассмотрены различные алгоритмы машинного обучения, включая наивную байесовскую классификацию, метод
k-ближайших соседей, дополненную наивную байесовскую классификацию и классификатор дерева решений. Предложена методика использования GridSearchCV для подбора оптимального гиперпараметра модели.

Практическая значимость. Использование предложенных методов предварительной обработки данных и подбора гиперпараметров позволит повысить эффективность моделей распознавания темы текста и получить более точные результаты.

Страницы: 7-15
Для цитирования

Гордеева Е.В., Кочкаров Р.А., Рылов А.А. Анализ задачи распознавания темы текста с помощью машинного обучения // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 4. С. 7-15. DOI: https://doi.org/10.18127/j1999 8554-202304-02

Список источников
  1. Ваш путеводитель по миру NLP. [Электронный ресурс] – Режим доступа: https://habr.com/ru/companies/otus/articles/705482/, дата обращения 18.04.2023.
  2. Основы Natural Language Processing для текста. [Электронный ресурс] – Режим доступа: https://habr.com/ru/com-pany/Voximplant/blog/446738/, дата обращения 18.04.2023.
  3. Обработка естественного языка. [Электронный ресурс] – Режим доступа: http://neerc.ifmo.ru/wiki/index.php?title=Обра-ботка_естественного_языка, дата обращения 18.04.2023.
  4. Jurafsky D., Martin J.H. Speech and Langauge Processing. 2nd ed. New Jersey: Prentice Hall. 2008. 1024 p.
  5. Иванова Г.С., Мартынюк П.А. Анализ нейросетевых языковых моделей при решении задач обработки текстовых данных // Нейрокомпьютеры: разработка, применение. 2023. Т. 25. № 2. С. 5–20. DOI 10.18127/j19998554-202302-01.
  6. Терехов В.И., Канев А.И. Система извлечения информации из текста для метаграфовой базы знаний // Динамика сложных систем – XXI век. 2020. Т. 14. № 3. С. 57–66. DOI 10.18127/j19997493-202003-05.
  7. Natural Language Processing with Python. [Электронный ресурс] – Режим доступа: http://www.nltk.org/book/ch00.html, дата обращения 13.05.2023.
  8. What is Tokenization in Natural Language Processing (NLP)? [Электронный ресурс] – Режим доступа: https://www.ma­chinelearningplus.com/nlp/what-is-tokenization-in-natural-language-processing/, дата обращения 13.05.2023.
  9. TF-IDF – Term Frequency-Inverse Document Frequency. [Электронный ресурс] – Режим доступа: https://www.learndata-sci.com/glossary/tf-idf-term-frequency-inverse-document-frequency/, дата обращения 13.05.2023.
Дата поступления: 01.06.2023
Одобрена после рецензирования: 15.06.2023
Принята к публикации: 26.07.2023