350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №5 за 2020 г.
Статья в номере:
Применение нейросетевого классификатора для мониторинга психоэмоционального состояния человека на основе анализа речи
Тип статьи: научная статья
DOI: 10.18127/j19998554-202005-03
УДК: 612.821; 57.089
Авторы:

В. Н. Кирой – д.биол.н., профессор, руководитель, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)

E-mail: kiroy@sfedu.ru

О. М. Бахтин – к.биол.н., ст. науч. сотрудник, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)

И. Е. Шепелев – к.т.н., вед. науч. сотрудник, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)

Д. Г. Шапошников – к.т.н., вед. науч. сотрудник, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)

Аннотация:

Постановка проблемы. Оценка эмоционального состояния человека по интонации речи имеет существенное значение для решения прикладных задач, связанных с обеспечением безопасности при выполнении операторской деятельности (водители, пилоты, диспетчера и т.д.).

Цель. Создать модель нейросетевого классификатора для распознавания слабых эмоций человека по характеристикам речевого сообщения.

Результаты. В качестве акустических характеристик эмоций и входных параметров классификатора использованы мел-частотные кепстральные коэффициенты. На основе представленной методики исследований проведена серия психофизиологических экспериментов и тестов по оценке уровня информативности сцены на изображении. С помощью группы экспертов по голосовому сообщению испытуемого выполнена оценка степени уверенности в описании сцены. Часть полученных результатов использована для обучения классификатора, а оставшиеся – для оценки его работы.

Практическая значимость. Анализ результатов автоматической классификации интонаций на «уверенная» – «неуверенная» показал высокий уровень распознавания (до 70%), что указывает на перспективность применения нейросетевого подхода для автоматической дискриминации слабых эмоций по их проявлению в речи.

Страницы: 30-42
Для цитирования

Кирой В.Н., Бахтин О.М., Шепелев И.Е., Шапошников Д.Г. Применение нейросетевого классификатора для мониторинга психоэмоционального состояния человека на основе анализа речи // Нейрокомпьютеры: разработка, применение. 2020. Т. 22. № 5. С. 30–42. DOI: 10.18127/j19998554-202005-03.

Список источников
  1. Морозов В.П. Искусство и наука общения: невербальная коммуникация. М.: ИП РАН, Центр «Искусство и наука». 1998.
  2. Hansen J.H.L., Cairns D.A. ICARUS: Source generator based real-time recognition of speech in noisy stressful and Lombard effect environments // Speech Communication. 1995. V. 16. № 4. P. 391–422.
  3. Schuller B., Rigoll G., Lang M. Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture // Proceedings of the ICASSP 2004. V. 1. P. 577–580.
  4. El Ayadi M., Kamel M.S., Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases // Pattern Recognition. 2011. V. 44. № 3. P. 572–587.
  5. Scherer K.R. Vocal communication of emotion: a review of research paradigms // Speech Communication. 2003. V. 40. P. 227–256.
  6. Cowie R., Douglas-Cowie E., Tsapatsoulis N., Votsis G., Kollias S., Fellenz W., Taylor J.G. Emotion recognition in human– computer interaction // IEEE Signal Processing Magazine. 2001. V. 18. № 1. P. 32–80.
  7. Juslin P., Laukka P. Communication of emotions in vocal expression and music performance: different channels, same code? // Psychological Bulletin. 2003. V. 129. P. 770–814.
  8. Laukka P. Research on vocal expression of emotion: state of the art and future directions / In: K. Izdebski (Ed.). Emotions in the human voice, foundations. 2008. V. 1. Plural Publishing, San Diego. P. 153–169.
  9. Campbell N. Getting to the heart of the matter: speech as the expression of affect; rather than just text or language // Language. Resources and Evaluation. 2005. V. 39. P. 109–118.
  10. Cowie R. Perceiving emotion: towards a realistic understanding of the task // Philos. Transactions of the Royal Society B. 2009. V. 364. P. 3515–3525.
  11. Cowie R., Cornelius R.R. Describing the emotional states that are expressed in speech // Speech Communication. 2003. V. 40. P. 5–32.
  12. Devillers L., Vidrascu L., Lamel L. Challenges in real-life emotion annotation and machine learning based detection // Neural Networks. 2005. V. 18. P. 407–422.
  13. Ververidis D., Kotropoulos C. A review of emotional speech databases // Proc. Panhellenic Conference on Informatics (PCI). Thessaloniki, Greece. 2003. P. 560–574.
  14. Douglas-Cowie E., Campbell N., Cowie R., Roach P. Emotional speech: towards a new generation of databases // Speech Communication. 2003. V. 40. P. 33–60.
  15. Greasley P., Sherrard C., Waterman M. Emotion in language and speech: methodological issues in naturalistic settings // Language and Speech. 2000. V. 43. P. 355–375.
  16. Lee C.M., Narayanan S.S. Toward detecting emotions in spoken dialogs // IEEE Transactions on Speech and Audio Processing. 2005. V. 13. № 2. P. 293–303.
  17. Litman D.J., Forbes-Riley K. Recognizing student emotions and attitudes on the basis of utterances in spoken tutoring dialogues with both human and computer tutors // Speech Communication. 2006. V. 48. P. 559–590.
  18. Kandali A.B., Routray A., Basu T.K. Vocal emotion recognition in five native languages of Assam using new wavelet features // International Journal of Speech Technology. 2009. V. 12. P. 1–13.
  19. Schuller B., Rigoll G. Timing levels in segment-based speech emotion recognition // Proceedings of the 9th International Conference on Spoken Language Processing. Pittsburgh, Pennsylvania. September 17–21, 2006. P. 1818–1821.
  20. Cornelius R.R. The science of emotion: Research and tradition in the psychology of emotions. N.J.: Upper Saddle River; London: Prentice-Hall 1996.
  21. Batliner A., Fischer K., Huber R., Spilker J., Nöth E. How to find trouble in communication // Speech Communication. 2003. V. 40. P. 117–143.
  22. Vogt T., André E. Comparing feature sets for acted and spontaneous speech in view of automatic emotion recognition // Proceedings of the IEEE International Conference on Multimedia and Expo. Amsterdam, the Netherlands. 2005. P. 474–477.
  23. Schuller B., Müller R., Hörnler B., Höthker A., Konosu H., Rigoll G. Audiovisual recognition of spontaneous interest within conversations // Proceedings of the 9th International Conference on Multimodal Interfaces. Nagoya, Japan. 2007. P. 30–37.
  24. Breazeal C., Aryananda L. Recognition of affective communicative intent in robot-directed speech // Autonomous Robots. 2002. V. 12. P. 83–104.
  25. Slaney M., McRoberts G. BabyEars: A recognition system for affective vocalizations // Speech Communication. 2003. V. 39. P. 367–384.
  26. Никонов А.В. К вопросу о возможности непрерывной оценки эмоционального состояния человека-оператора во время полета по его речевым сообщениям // Материалы симпозиума «Речь и эмоции». 11–14 ноября. Л.: 1974.
  27. Рамишвили Г.С. Автоматическое опознание говорящего по голосу. М.: Радио и связь. 1981.
  28. Жабин Д.В. Формальные признаки спонтанной речи говорящего в ситуации стресса. Автореф. дисс. … канд. филол. наук. Воронеж. 2006.
  29. Laukka P., Neiberg D., Forsell M., Karlsson I., Elenius K. Expression of affect in spontaneous speech: Acoustic correlates and automatic detection of irritation and resignation // Computer Speech & Language 2011. V. 25. № 1. P. 84–104.
  30. Barlow D.H. Unraveling the mysteries of anxiety and its disorders from the perspective of emotion theory // American Psychologist. 2000. V. 55. P. 1247–1263.
  31. Herry C., Bach D.R., Esposito F., Di Salle F., Perrig W.J., Scheffler K., Luthi A., Seifritz E. Processing of temporal unpredictability in human and animal amygdala // The Journal of Neuroscience. 2007. V. 27. № 22. P. 5958–5966.
  32. Carleton R.N., Sharpe D., Asmundson G.J. Anxiety sensitivity and intolerance of uncertainty: requisites of the fundamental fears? // Behaviour Research and Therapy. 2007. V. 45. № 10. P. 2307–2316.
  33. Grupe D.W., Nitschke J.B. Uncertainty and anticipation in anxiety: an integrated neurobiological and psychological perspective // Nature Reviews. Neuroscience. 2013. V. 14. № 7. P. 488–501.
  34. Davis M., Walker D.L., Miles L., Grillon C. Phasic versus sustained fear in rats and humans: role of the extended amygdala in fear versus anxiety // Neuropsychopharmacology. 2010. V. 35. P. 105–135.
  35. Walker D.L., Toufexis D.J., Davis M. Role of the bed nucleus of the striaterminalis versus the amygdala in fear, stress, and anxiety // European Journal of Pharmacology. 2003. V. 463. № 1-3. P. 199–216.
  36. Brühl A.B., Rufer M., Delsignore A., Kaffenberger T., Jäncke L., Herwig U. Neural correlates of altered general emotion processing in social anxiety disorder // Brain Research. 2011. V. 1378. P. 72–83.
  37. Кирой В.Н., Асланян Е.В., Бахтин О.М., Миняева Н.Р., Лазуренко Д.М. ЭЭГ-корреляты функционального состояния пилотов в динамике тренажерных полетов // Журнал высшей нервной деятельности. 2015. Т. 65. № 1. С. 1–9.
  38. Grimm M., Mower E., Kroschel K., Narayanan S. Combining categorical and primitives based emotion recognition // 14th European Signal Processing Conference. Florence, Italy. 4–8 Sept, 2006. P. 1–5.
  39. Vlasenko B., Schuller B., Wendemuth A., Rigoll G. Frame vs. turn-level: emotion recognition from speech considering static and dynamic processing // Proceedings of Affective Computing and Intelligent Interaction. Lisbon, Portugal. 2007. P. 139–147.
  40. Bozkurt E., Erzin E., Erdem Ç.E., Erdem A.T. Formant position based weighted spectral features for emotion recognition // Speech Communication. 2011. V. 53. P. 1186–1197.
  41. Davood G., Sheikhan M., Nazerieh A., Garouc S. Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network // Neural Computing and Applications. 2012. V. 21. № 8. P. 2115–2126.
  42. Pérez-Espinosa H., Reyes-García C.A., Villaseñor-Pineda L. Acoustic feature selection and classification of emotions in speech using a 3D continuous emotion model // Biomedical Signal Processing and Control. 2012. V. 7. № 1. P. 79–87.
  43. Sun Y., Wen G., Wang J. Weighted spectral features based on local Hu moments for speech emotion recognition // Biomedical Signal Processing and Control. 2015. V. 18. P. 80–90.
  44. Zbynik T., Psutka J. Speech production based on the mel-frequency cepstral coefficients // Eurospeech 1999. International Speech Communication Association. 1999. P. 2335–2338.
  45. Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentence // IEEE Transaction on Acoustics, Speech and Signals Processing. 1980. V. 28. № 4. P. 357–366.
  46. Шепелев И.Е., Лазуренко Д.М. Нейросетевой подход к задаче классификации паттернов электроэнцефалограммы мысленных движений // Научная сессия НИЯУ МИФИ–2012. Нейроинформатика–2012: Сб. науч. трудов XIV Всероссийской науч.-технич. конф. Москва: Национальный исследовательский ядерный университет «МИФИ». 2012. С. 238–245.
  47. Шепелев И.Е., Надтока И.И., Вялкова С.А., Губский С.О. Сравнительный анализ итерационного и прямого нейросетевого краткосрочного прогнозирования электропотребления крупного города // Нейрокомпьютеры: разработка, применение. 2016. № 3. С. 21–30.
  48. Шепелев И.Е., Лазуренко Д.М., Кирой В.Н., Асланян Е.В., Бахтин О.М., Миняева Н.Р. Новый нейросетевой подход к созданию ИМК на основе ЭЭГ-паттернов произвольных мысленных движений // Журнал высшей нервной деятельности. 2017. Т. 67. № 4. С. 527–545.
  49. Хайкин С. Нейронные сети: полный курс. Изд. 2-е. М.: Вильямс. 2006.
  50. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация: Пер. с англ. М.: Мир. 1985.
Дата поступления: 29 сентября 2020 г.