350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №3 за 2025 г.
Статья в номере:
Анализ проблематики методов автоматического определения тональности в неструктурированных текстах
Тип статьи: обзорная статья
DOI: https://doi.org/10.18127/j19998554-202503-07
УДК: 004.852:004.912
Авторы:

Е.А. Преснов1, А.Н. Алпатов2
1, 2 МИРЭА – Российский технологический университет (Москва, Россия)

1 presnov.e.a@yandex.ru, 2 alpatov@mirea.ru

Аннотация:

Постановка проблемы. В последние годы задачи автоматического распознавания тональности в текстах приобрели особую актуальность в связи с ростом объемов пользовательского контента в социальных сетях, блогах, отзывах на товары и услуги, политических дискуссиях и других цифровых коммуникационных средах. Благодаря глубоким нейронным сетям появились новые подходы к выделению сложных лингвистических паттернов и контекстуальных зависимостей, что повысило качество классификации тональности на множестве тестовых корпусов. Однако, несмотря на достигнутые успехи, при применении машинного обучения и нейросетей к распознаванию тональности сохраняется ряд проблем. Во-первых, сложности вызывает неоднородность и контекстуальная изменчивость лексики, связанные с выражением мнений. Во-вторых, существенную трудность представляют сарказм, ирония и имплицитно выраженные отношения: стандартные методы машинного обучения не всегда способны эффективно интерпретировать такие тонкости, особенно без учета прагматического контекста. Кроме того, качество входных данных играет решающую роль в построении успешных систем. Отдельно стоит отметить сложность анализа эмоций, отличных от позитивной/негативной окраски.

Цель. Выполнить анализ существующих методов машинного обучения при распознавании тональности текста для выявления перспективных направлений дальнейших исследований.

Результаты. Проанализированы существующие методы анализа текстов, применимые для распознавания тональности текста. Определены существующие проблемы, такие как доступность обучающих материалов соответствующей предметной области, дисбаланс классов тональностей и доступ к данным. Отмечены направления дальнейших исследований, такие как проблемы многозначности языка, идиоматические компоненты языка, расширение спектра эмоций.

Практическая значимость. Результаты анализа могут быть применимы при проектировании систем, связанных с распознаванием мнений авторов текстов относительно определенной проблемы/объекта, эмоций по отношению к тому или иному событию/объекту на этапе проектирования и технического анализа требований к системе для выбора соответствующего подхода.

Страницы: 49-61
Для цитирования

Преснов Е.А., Алпатов А.Н. Анализ проблематики методов автоматического определения тональности в неструктурированных текстах // Нейрокомпьютеры: разработка, применение. 2025. Т. 27. № 3. С. 49–61. DOI: https://doi.org/10.18127/j19998554-202503-07

Список источников
  1. Measuring digital development – Facts and Figures 2024 // ITU publications [Электронный ресурс] / URL: https://www.itu.int/hub/ publication/d-ind-ict_mdd-2024-4/ (дата обращения: 2024).
  2. Щекотин Е.В. и др. Субъективная оценка (не)благополучия населения регионов РФ на основе данных социальных сетей // Мониторинг общественного мнения: Экономические и социальные перемены. 2020. № 1 (155). С. 78–116.
  3. Razali N.A.M. et al. Opinion mining for national security: techniques, domain applications, challenges and research opportunities // Journal of big data. 2021. V. 8. P. 1–46.
  4. Liu B. Sentiment analysis: Mining opinions, sentiments, and emotions. Morgan & Claypool Publishers. 2012.
  5. Liu B. Sentiment analysis and opinion mining. Springer Nature. 2022.
  6. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии «Диалог-2011». М. 2011. С. 510–522.
  7. Fernández-Gavilanes M. et al. Unsupervised method for sentiment analysis in online texts // Expert Systems with Applications. 2016. V. 58. P. 57–75.
  8. Wook M. et al. Opinion mining technique for developing student feedback analysis system using lexicon-based approach (OMFeedback) // Education and Information Technologies. 2020. V. 25. P. 2549–2560.
  9. Garcia M.B. Sentiment analysis of tweets on coronavirus disease 2019 (COVID-19) pandemic from Metro Manila, Philippines // Cybernetics and Information Technologies. 2020. V. 20. № 4. P. 141–155.
  10. Бессмертный И.А., Нугуманова А.Б., Платонов А.В. Интеллектуальные системы. М.: Юрайт. 2017. C. 95–97.
  11. Bishop C.M., Nasrabadi N.M. Pattern recognition and machine learning. New York: Springer. 2006. V. 4. № 4. P. 738.
  12. Boser B.E., Guyon I.M., Vapnik V.N. A training algorithm for optimal margin classifiers // Proceedings of the Fifth Annual Workshop on Computational Learning Theory. 1992. P. 144–152.
  13. Zhang L., Dong W., Mu X. Analysing the features of negative sentiment tweets // The Electronic Library. 2018. V. 36. № 5. P. 782–799.
  14. Ameur H., Jamoussi S., Hamadou A.B. Sentiment lexicon enrichment using emotional vector representation // 2017 IEEE/ACS 14th International Conference on Computer Systems and Applications (AICCSA). IEEE. 2017. P. 951–958.
  15. Banik N., Rahman M.H.H. Evaluation of naive bayes and support vector machines on bangla textual movie reviews // 2018 International Conference on Bangla Speech and Language Processing (ICBSLP). IEEE. 2018. P. 1–6.
  16. Mogaji E., Erkan I. Insight into consumer experience on UK train transportation services // Travel Behaviour and Society. 2019. V. 14. P. 21–33.
  17. Kaur H.J., Kumar R. Sentiment analysis from social media in crisis situations // International Conference on Computing, Communication & Automation. IEEE. 2015. P. 251–256.
  18. Fischer I., Steiger H.J. Toward automatic evaluation of medical abstracts: The current value of sentiment analysis and machine learning for classification of the importance of PubMed abstracts of randomized trials for stroke // Journal of Stroke and Cerebrovascular Diseases. 2020. V. 29. № 9. P. 105042.
  19. Gopalakrishnan V., Ramaswamy C. Patient opinion mining to analyze drugs satisfaction using supervised learning // Journal of Applied Research and Technology. 2017. V. 15. № 4. P. 311–319.
  20. Quinlan J.R. C4.5: programs for machine learning. Elsevier. 2014.
  21. Quinlan J.R. Induction of decision trees // Machine learning. 1986. V. 1. P. 81–106.
  22. Elhadad M.K., Li K.F., Gebali F. Sentiment analysis of Arabic and English tweets // Web, Artificial Intelligence and Network Applications: Proceedings of the Workshops of the 33rd International Conference on Advanced Information Networking and Applications (WAINA-2019). Springer International Publishing. 2019. P. 334–348.
  23. Chen Y. Convolutional neural network for sentence classification. Thesis. University of Waterloo. 2015.
  24. Harb J.G.D., Ebeling R., Becker K. A framework to analyze the emotional reactions to mass violent events on Twitter and influential factors // Information Processing & Management. 2020. V. 57. № 6. P. 102372.
  25. Medford R.J. et al. An «infodemic»: leveraging high-volume Twitter data to understand early public sentiment for the coronavirus disease 2019 outbreak // Open forum infectious diseases. US: Oxford University Press. 2020. V. 7. № 7. P. ofaa258.
  26. Lai S. et al. Recurrent convolutional neural networks for text classification // Proceedings of the AAAI Conference on Artificial Intelligence. 2015. V. 29. № 1.
  27. Manning C., Schutze H. Foundations of statistical natural language processing. MIT Press. 1999.
  28. Vaswani A. et al. Attention is all you need // 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beach, CA, USA. 2017. P. 1–11.
  29. Ali S., Wang G., Riaz S. Aspect based sentiment analysis of ridesharing platform reviews for kansei engineering // IEEE Access. 2020. V. 8. P. 173186–173196.
  30. Вычегжанин С.В., Котельников Е.В., Разова Е.В. Исследование методов выбора оптимального количества признаков для решения задачи определения точки зрения автора текста // Advanced Science. 2019. № 1. С. 19–23.
Дата поступления: 03.04.2025
Одобрена после рецензирования: 06.05.2025
Принята к публикации: 26.05.2025