В.Г. Ляликова1, М.М. Безрядин2, Д.Ю. Голованов3
1–3 Воронежский государственный университет (г. Воронеж, Россия)
1 vikalg@yandex.ru, 2 maickel@yandex.ru, 3 dmitry.golovanov.1988@gmail.com
Постановка проблемы. Диагностирование депрессии представляет собой сложную задачу, на успешное решение которой может влиять как отсутствие знаний и опыта психолога или психиатра, так и наличие противоречивых или неполных исходных данных со стороны пациента. Для устранения последнего недостатка разрабатываются экспертные или интеллектуальные системы.
Цель. Разработать методику на основе алгоритмов машинного обучения для выявления депрессии у пользователей социальной сети Reddit.
Результаты. Проведен анализ процесса предварительной обработки данных, включающий очистку данных, токенизацию, удаление стоп-слов, лемматизацию, векторизацию. Рассмотрена работа таких классических алгоритмов машинного обучения, как наивный байесовский классификатор, алгоритм логистической регрессии, метод опорных векторов, а также алгоритмов нейронных сетей – многослойного персептрона, нейронных сетей LSTM (Long Short-Term Memory, сеть долгой краткосрочной памяти) и BERT (Bidirectional Encoder Representation Transformer, двунаправленная нейронная сеть-кодировщик). Выдвинута гипотеза о возможности обеспечения высокой точности за счет использования нейросетевых алгоритмов. Представлены результаты компьютерного эксперимента. Проведен сравнительный анализ качества работы рассматриваемых алгоритмов с использованием метрик полноты, точности и F1-меры. Показано, что показатели точности определения эмоциональной окраски комментариев в социальной сети Reddit для нейронной сети LSTM и BERT достигли 97% и 98% соответственно.
Практическая значимость. Полученные результаты можно использовать в областях медицины, занимающейся изучением психических расстройств человека для более быстрого и качественного выявления депрессии.
Ляликова В.Г., Безрядин М.М., Голованов Д.Ю. Применение методов машинного обучения для обнаружения депрессии пользователей социальной сети Reddit // Нейрокомпьютеры: разработка, применение. 2024. T. 26. № 5. С. 49-56. DOI: https://doi.org/10.18127/j19998554-202405-05
- De Choudhury M., Gamon M., Counts S., Horvitz E. Predicting depression via social media // Proceedings of the International AAAI Conference on Web and Social Media. 2013. V. 7. № 1. P. 128–137. DOI 10.1609/icwsm.v7i1.14432.
- Gkotsis G., Oellrich A., Velupillai S., Liakata M., Hubbard T.J.P., Dobson R.J.B., Dutta R. Characterisation of mental health conditions in social media using Informed Deep Learning // Scientific Reports. 2017. V. 7. P. 45141. DOI 10.1038/srep45141.
- Kim J., Lee J., Park E., Han J. A deep learning model for detecting mental illness from user content on social media // Scientific Reports. 2020. V. 10. P. 11846. DOI 10.1038/s41598-020-68764-y.
- Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. Roberta: A robustly optimized BERT pretraining approach. [Электронный ресурс] – Режим доступа: https://arxiv.org/pdf/1907.11692, дата обращения 05.07.2023.
- Murarka A., Balaji R., Sushma R. Detection and classification of mental illnesses on social media using RoBERTa. [Электронный ресурс] – Режим доступа: https://arxiv.org/pdf/2011.11226.pdf, дата обращения 05.06.2023.
- Reece A.G., Christopher M.D. Instagram photos reveal predictive markers of depression // EPJ Data Science. 2017. V. 6. № 1.
P. 1–12. DOI 10.1140/epjds/s13688-017-0110-z. - Tsugawa Sh., Kikuchi Y., Kishino F., Nakajima K., Itoh Y., Ohsaki H. Recognizing depression from twitter activity // Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. 2015. P. 3187–3196. DOI 10.1145/2702123.2702280.
- Xue Y., Li Q., Jin L., Feng L., Clifton D.A., Clifford G.D. Detecting Adolescent Psychological Pressures from Micro-Blog // Health Information Science. 2014. V. 8423. P. 83–94. DOI 10.1007/978-3-319-06269-3_10.
- Ляликова В.Г., Безрядин М.М. Анализ тональности текста методами машинного обучения // Сборник трудов Междунар. науч. конф. «Актуальные проблемы прикладной математики, информатики и механики». Воронеж: Научно-исследовательские публикации. 2023. С. 475–478.
- Макмахан Б. Знакомство с PyTorch: глубокое обучение при обработке естественного языка. СПб.: Питер. 2020. 258 с.
- Бенгфорт Б. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. СПб.: Питер. 2019. 368 с.
- Фаустова К.И. Нейронные сети: применение сегодня и перспективы развития // Территория науки. 2017. №3. С. 89–91.
- Шолле Ф. Глубокое обучение на Python. СПб.: Питер. 2018. 400 с.
- Добрина М.В. Методы анализа данных с использованием искусственных нейронных сетей // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 4. С. 45–53. DOI 10.18127/j19998554-202304-06.
- Wolf T., Debut L., Sanh V., Chaumond J., Delangue C., Moi A., Cistac P., Rault T., Louf R., Funtowicz M., Davison J., Shleifer S., von Platen P., Ma C., Jernite Y., Plu J., Xu C., Le Scao T., Gugger S., Drame M., Lhoest Q., Rush A. Transformers: State-of-the-Art Natural Language Processing // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020. P. 38–45.DOI 10.18653/v1/2020.emnlp-demos.6.