Комбинированные методы диаризации речи дикторов

350 руб

Журнал «Информационно-измерительные и управляющие системы» №8 за 2013 г.

Статья в номере:

Ключевые слова: диаризация дикторов распознавание речи многомодальный анализ поведения человека анализ изображений локализация источника звука

Авторы:

В.Ю. Будков - мл. науч. сотрудник, лаборатория «Речевые и многомодальные интерфейсы», СПИИРАН А.Л. Ронжин - д.т.н., доцент, зав. лабораторией «Речевые и многомодальные интерфейсы», СПИИРАН

Аннотация:

Протоколирование выступлений участников является обязательной процедурой при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий. Проведенный анализ комбинированных систем диаризации показал, что использование дополнительных параметров, извлекаемых при анализе изображений и локализации источника звука, позволяет повысить точность определения момента смены диктора в многоканальном сигнале.

Страницы: 74-79

Список источников

Noulas A., Englebienne G., Kröse B.J.A. Multimodal Speaker Diarization // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2012. №34(1). Р. 79-93.
Sinha R., Tranter S.E., Gales M.J.F., Woodland P.C. The Cambridge University March 2005 speaker diarisation system // In: Proc. of the European Conference on Speech Communication and Technology. 2005. Р. 2437-2440.
Wu C.H., Hsieh C.H. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model // IEEE Trans. Audio Speech Language Process. 2006. № 14 (2). Р. 647-657.
Meignier S., Moraru D., Fredouille C., Bonastre J.F., Besacier L. Step-by-step and integrated approaches in broadcast news speaker diarization // Comput. Speech Language 20 (2-3). 2006. Р. 303-330.
Kotti M., Moschou V., Kotropoulos C. Speaker segmentation and clustering // Signal Process. 88 (5). 2008. Р. 1091-1124.
Tsiaras V., Panagiotakis C., Stylianou Y. Video and audio based detection of filled hesitation pauses in classroom lectures // Proc. of the 17th European Signal Processing Conference (EUSIPCO 2009). Glasgow. Scotland. 2009. Р. 834-838.
Garau G., Dielmann A., Bourlard H. Audio and Visual Synchronisation for Speaker Diarisation // In Proc. of International Conference on Speech and Language Processing, Interspeech, Makuhari. Japan. 2010. Р. 2654-2657.
Friedland G., Hung H., Yeo C. Multi-Modal Speaker Diarization of Real-World Meetings using Compressed Domain Video Features // in Proc. ICASSP. 2009. Р. 4069-4072.
Хитров М.В. Мультимодальная система доступа с использованием голосовой биометрии // Директор по безопасности. 2012. № 5 (33). С. 48-53.
Hershey J., Movellan J. Audio-Vision: Using Audio-Visual Synchrony to Locate Sound // In Proc. NIPS. 1999. Р. 813-819.
Slaney M., Covell M. FaceSync: a linear operator for measuring synchronization of visual facial images and audio tracks // in Proc. NIPS. 2000. Р. 814-820.
Padilha E., Carletta J. Nonverbal Behaviours Improving a Simulation of Small Group Discussion // In Proc. of the 1st Nordic Symposium on Multimodal Communications. 2003. Р. 93-105.
Eveno N., Caplier A., Coulon P.-Y. Accurate and Quasi-Automatic Lip Tracking // IEEE Trans. on Circuits and Systems for Video Technology. 2004. V. 14. Iss. 5. Р. 706-715.
Omologo M., Svaizer P., Brutti A., Cristoforetti L. Speaker Localization in CHIL Lectures: Evaluation Criteria and Results // Proc. of Machine MLMI 2005. Eds. Steve Renals, Samy Bengio. LNCS 3869. Springer-Verlag Berlin Heidelberg. 2006. Р. 476-487.
Pfau T., Ellis D., Stolcke D. Multispeaker Speech Activity Detection for the ICSI Meeting Recorder // IEEE ASRU Workshop. 2001. Р. 107-110.
Ронжин А.Л., Будков В.Ю., Ронжин Ал.Л. Технологии формирования аудиовизуального интерфейса системы телеконференций // Автоматизация и современные технологии. 2011. № 5. С. 20-26.
Ронжин А.Л., Карпов А.А. Проектирование интерактивных приложений с многомодальным интерфейсом // Доклады ТУСУРа. 2010. № 1 (21). Ч. 1. С. 124-127.
Ronzhin A.L., Budkov V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2009. LNCS 5764. 2009. Р. 77-88.
Ронжин Ал.Л., Будков В.Ю., Ронжин Ан.Л. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в интеллектуальном зале совещаний // Труды СПИИРАН. 2012. Вып. 23. С. 482-494.
Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-измерительные и управляющие системы. 2011. № 4. Т. 53. С. 53-59.