В. Н. Кирой – д.биол.н., профессор, руководитель, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)
E-mail: kiroy@sfedu.ru
О. М. Бахтин – к.биол.н., ст. науч. сотрудник, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)
И. Е. Шепелев – к.т.н., вед. науч. сотрудник, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)
Д. Г. Шапошников – к.т.н., вед. науч. сотрудник, Научно-исследовательский технологический центр нейротехнологий, Южный федеральный университет (г. Ростов-на-Дону, Россия)
Постановка проблемы. Оценка эмоционального состояния человека по интонации речи имеет существенное значение для решения прикладных задач, связанных с обеспечением безопасности при выполнении операторской деятельности (водители, пилоты, диспетчера и т.д.).
Цель. Создать модель нейросетевого классификатора для распознавания слабых эмоций человека по характеристикам речевого сообщения.
Результаты. В качестве акустических характеристик эмоций и входных параметров классификатора использованы мел-частотные кепстральные коэффициенты. На основе представленной методики исследований проведена серия психофизиологических экспериментов и тестов по оценке уровня информативности сцены на изображении. С помощью группы экспертов по голосовому сообщению испытуемого выполнена оценка степени уверенности в описании сцены. Часть полученных результатов использована для обучения классификатора, а оставшиеся – для оценки его работы.
Практическая значимость. Анализ результатов автоматической классификации интонаций на «уверенная» – «неуверенная» показал высокий уровень распознавания (до 70%), что указывает на перспективность применения нейросетевого подхода для автоматической дискриминации слабых эмоций по их проявлению в речи.
Кирой В.Н., Бахтин О.М., Шепелев И.Е., Шапошников Д.Г. Применение нейросетевого классификатора для мониторинга психоэмоционального состояния человека на основе анализа речи // Нейрокомпьютеры: разработка, применение. 2020. Т. 22. № 5. С. 30–42. DOI: 10.18127/j19998554-202005-03.
- Морозов В.П. Искусство и наука общения: невербальная коммуникация. М.: ИП РАН, Центр «Искусство и наука». 1998.
- Hansen J.H.L., Cairns D.A. ICARUS: Source generator based real-time recognition of speech in noisy stressful and Lombard effect environments // Speech Communication. 1995. V. 16. № 4. P. 391–422.
- Schuller B., Rigoll G., Lang M. Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture // Proceedings of the ICASSP 2004. V. 1. P. 577–580.
- El Ayadi M., Kamel M.S., Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases // Pattern Recognition. 2011. V. 44. № 3. P. 572–587.
- Scherer K.R. Vocal communication of emotion: a review of research paradigms // Speech Communication. 2003. V. 40. P. 227–256.
- Cowie R., Douglas-Cowie E., Tsapatsoulis N., Votsis G., Kollias S., Fellenz W., Taylor J.G. Emotion recognition in human– computer interaction // IEEE Signal Processing Magazine. 2001. V. 18. № 1. P. 32–80.
- Juslin P., Laukka P. Communication of emotions in vocal expression and music performance: different channels, same code? // Psychological Bulletin. 2003. V. 129. P. 770–814.
- Laukka P. Research on vocal expression of emotion: state of the art and future directions / In: K. Izdebski (Ed.). Emotions in the human voice, foundations. 2008. V. 1. Plural Publishing, San Diego. P. 153–169.
- Campbell N. Getting to the heart of the matter: speech as the expression of affect; rather than just text or language // Language. Resources and Evaluation. 2005. V. 39. P. 109–118.
- Cowie R. Perceiving emotion: towards a realistic understanding of the task // Philos. Transactions of the Royal Society B. 2009. V. 364. P. 3515–3525.
- Cowie R., Cornelius R.R. Describing the emotional states that are expressed in speech // Speech Communication. 2003. V. 40. P. 5–32.
- Devillers L., Vidrascu L., Lamel L. Challenges in real-life emotion annotation and machine learning based detection // Neural Networks. 2005. V. 18. P. 407–422.
- Ververidis D., Kotropoulos C. A review of emotional speech databases // Proc. Panhellenic Conference on Informatics (PCI). Thessaloniki, Greece. 2003. P. 560–574.
- Douglas-Cowie E., Campbell N., Cowie R., Roach P. Emotional speech: towards a new generation of databases // Speech Communication. 2003. V. 40. P. 33–60.
- Greasley P., Sherrard C., Waterman M. Emotion in language and speech: methodological issues in naturalistic settings // Language and Speech. 2000. V. 43. P. 355–375.
- Lee C.M., Narayanan S.S. Toward detecting emotions in spoken dialogs // IEEE Transactions on Speech and Audio Processing. 2005. V. 13. № 2. P. 293–303.
- Litman D.J., Forbes-Riley K. Recognizing student emotions and attitudes on the basis of utterances in spoken tutoring dialogues with both human and computer tutors // Speech Communication. 2006. V. 48. P. 559–590.
- Kandali A.B., Routray A., Basu T.K. Vocal emotion recognition in five native languages of Assam using new wavelet features // International Journal of Speech Technology. 2009. V. 12. P. 1–13.
- Schuller B., Rigoll G. Timing levels in segment-based speech emotion recognition // Proceedings of the 9th International Conference on Spoken Language Processing. Pittsburgh, Pennsylvania. September 17–21, 2006. P. 1818–1821.
- Cornelius R.R. The science of emotion: Research and tradition in the psychology of emotions. N.J.: Upper Saddle River; London: Prentice-Hall 1996.
- Batliner A., Fischer K., Huber R., Spilker J., Nöth E. How to find trouble in communication // Speech Communication. 2003. V. 40. P. 117–143.
- Vogt T., André E. Comparing feature sets for acted and spontaneous speech in view of automatic emotion recognition // Proceedings of the IEEE International Conference on Multimedia and Expo. Amsterdam, the Netherlands. 2005. P. 474–477.
- Schuller B., Müller R., Hörnler B., Höthker A., Konosu H., Rigoll G. Audiovisual recognition of spontaneous interest within conversations // Proceedings of the 9th International Conference on Multimodal Interfaces. Nagoya, Japan. 2007. P. 30–37.
- Breazeal C., Aryananda L. Recognition of affective communicative intent in robot-directed speech // Autonomous Robots. 2002. V. 12. P. 83–104.
- Slaney M., McRoberts G. BabyEars: A recognition system for affective vocalizations // Speech Communication. 2003. V. 39. P. 367–384.
- Никонов А.В. К вопросу о возможности непрерывной оценки эмоционального состояния человека-оператора во время полета по его речевым сообщениям // Материалы симпозиума «Речь и эмоции». 11–14 ноября. Л.: 1974.
- Рамишвили Г.С. Автоматическое опознание говорящего по голосу. М.: Радио и связь. 1981.
- Жабин Д.В. Формальные признаки спонтанной речи говорящего в ситуации стресса. Автореф. дисс. … канд. филол. наук. Воронеж. 2006.
- Laukka P., Neiberg D., Forsell M., Karlsson I., Elenius K. Expression of affect in spontaneous speech: Acoustic correlates and automatic detection of irritation and resignation // Computer Speech & Language 2011. V. 25. № 1. P. 84–104.
- Barlow D.H. Unraveling the mysteries of anxiety and its disorders from the perspective of emotion theory // American Psychologist. 2000. V. 55. P. 1247–1263.
- Herry C., Bach D.R., Esposito F., Di Salle F., Perrig W.J., Scheffler K., Luthi A., Seifritz E. Processing of temporal unpredictability in human and animal amygdala // The Journal of Neuroscience. 2007. V. 27. № 22. P. 5958–5966.
- Carleton R.N., Sharpe D., Asmundson G.J. Anxiety sensitivity and intolerance of uncertainty: requisites of the fundamental fears? // Behaviour Research and Therapy. 2007. V. 45. № 10. P. 2307–2316.
- Grupe D.W., Nitschke J.B. Uncertainty and anticipation in anxiety: an integrated neurobiological and psychological perspective // Nature Reviews. Neuroscience. 2013. V. 14. № 7. P. 488–501.
- Davis M., Walker D.L., Miles L., Grillon C. Phasic versus sustained fear in rats and humans: role of the extended amygdala in fear versus anxiety // Neuropsychopharmacology. 2010. V. 35. P. 105–135.
- Walker D.L., Toufexis D.J., Davis M. Role of the bed nucleus of the striaterminalis versus the amygdala in fear, stress, and anxiety // European Journal of Pharmacology. 2003. V. 463. № 1-3. P. 199–216.
- Brühl A.B., Rufer M., Delsignore A., Kaffenberger T., Jäncke L., Herwig U. Neural correlates of altered general emotion processing in social anxiety disorder // Brain Research. 2011. V. 1378. P. 72–83.
- Кирой В.Н., Асланян Е.В., Бахтин О.М., Миняева Н.Р., Лазуренко Д.М. ЭЭГ-корреляты функционального состояния пилотов в динамике тренажерных полетов // Журнал высшей нервной деятельности. 2015. Т. 65. № 1. С. 1–9.
- Grimm M., Mower E., Kroschel K., Narayanan S. Combining categorical and primitives based emotion recognition // 14th European Signal Processing Conference. Florence, Italy. 4–8 Sept, 2006. P. 1–5.
- Vlasenko B., Schuller B., Wendemuth A., Rigoll G. Frame vs. turn-level: emotion recognition from speech considering static and dynamic processing // Proceedings of Affective Computing and Intelligent Interaction. Lisbon, Portugal. 2007. P. 139–147.
- Bozkurt E., Erzin E., Erdem Ç.E., Erdem A.T. Formant position based weighted spectral features for emotion recognition // Speech Communication. 2011. V. 53. P. 1186–1197.
- Davood G., Sheikhan M., Nazerieh A., Garouc S. Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network // Neural Computing and Applications. 2012. V. 21. № 8. P. 2115–2126.
- Pérez-Espinosa H., Reyes-García C.A., Villaseñor-Pineda L. Acoustic feature selection and classification of emotions in speech using a 3D continuous emotion model // Biomedical Signal Processing and Control. 2012. V. 7. № 1. P. 79–87.
- Sun Y., Wen G., Wang J. Weighted spectral features based on local Hu moments for speech emotion recognition // Biomedical Signal Processing and Control. 2015. V. 18. P. 80–90.
- Zbynik T., Psutka J. Speech production based on the mel-frequency cepstral coefficients // Eurospeech 1999. International Speech Communication Association. 1999. P. 2335–2338.
- Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentence // IEEE Transaction on Acoustics, Speech and Signals Processing. 1980. V. 28. № 4. P. 357–366.
- Шепелев И.Е., Лазуренко Д.М. Нейросетевой подход к задаче классификации паттернов электроэнцефалограммы мысленных движений // Научная сессия НИЯУ МИФИ–2012. Нейроинформатика–2012: Сб. науч. трудов XIV Всероссийской науч.-технич. конф. Москва: Национальный исследовательский ядерный университет «МИФИ». 2012. С. 238–245.
- Шепелев И.Е., Надтока И.И., Вялкова С.А., Губский С.О. Сравнительный анализ итерационного и прямого нейросетевого краткосрочного прогнозирования электропотребления крупного города // Нейрокомпьютеры: разработка, применение. 2016. № 3. С. 21–30.
- Шепелев И.Е., Лазуренко Д.М., Кирой В.Н., Асланян Е.В., Бахтин О.М., Миняева Н.Р. Новый нейросетевой подход к созданию ИМК на основе ЭЭГ-паттернов произвольных мысленных движений // Журнал высшей нервной деятельности. 2017. Т. 67. № 4. С. 527–545.
- Хайкин С. Нейронные сети: полный курс. Изд. 2-е. М.: Вильямс. 2006.
- Гилл Ф., Мюррей У., Райт М. Практическая оптимизация: Пер. с англ. М.: Мир. 1985.