Автоматическое распознавание аудиовизуальной русской речи с применением асинхронной модели

350 руб

Журнал «Информационно-измерительные и управляющие системы» №7 за 2010 г.

Статья в номере:

Ключевые слова: распознавание речи аудиовизуальная речь скрытые марковские модели асинхронность модальностей многомодальный интерфейс

Авторы:

А. А. Карпов - к. т. н., с. н. с. лаб. речевых и многомодальных интерфейсов Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН). E-mail: karpov@iias.spb.su

Аннотация:

Представлено исследование модели автоматического бимодального распознавания аудиовизуальной русской речи с применением математического аппарата сдвоенных скрытых марковских моделей первого порядка, который позволяет производить объединение потоков векторов признаков от звуковой и визуальной модальностей речи на уровне состояний объединенной вероятностной модели. Модель позволяет учитывать временное рассогласование (асинхронность) потоков соответствующих элементов речи - фонем и визем, характерное для разговорной речи, и объединять информацию от двух речевых модальностей с учетом весовых коэффициентов их информативности. Представлены результаты распознавания слитной русской речи для словаря малого размера и сравнение бимодального распознавания с одномодальными моделями, которые показывают преимущества первых, особенно в условиях акустических шумов.

Страницы: 91-96

Список источников

Karpov, A., Tsirulnik, L., Krnoul, Z., Ronzhin, A., Lobanov, B., Zelezny, M., Audio-Visual Speech Asynchrony Modeling in a Talking Head // In Proc. 10-th International Conference Interspeech-2009. Brighton. UK. 2009. P. 2911-2914.
Карпов А., РонжинA., Лобанов Б., Цирульник Л., Железны М. Разработка бимодальной системы аудиовизуального распознавания русской речи // Информационно-измерительные и управляющие системы. 2008. Т. 6. № 10. С. 58-62.
Nefian, A., Liang, L., Pi, X., Xiaoxiang, X., Mao, C.,and Murphy, K., A coupled hmm for audio-visual speech recognition. Proc. International Conference ICASSP-2002. Orlando. USA. 2002.
Chu, S., Huang, T.,Multi-Modal sensory Fusion with Application to Audio-Visual Speech Recognition // Proc. Multi-modal Speech Recognition Workshop-2002. Greensboro. USA. 2002.
Ронжин А. Л., Карпов А. А., Ли И. В. Речевой и многомодальный интерфейсы. М.: Наука(Информатика: неограниченныевозможностиивозможныеограничения). 2006.
Lienhart, R., Maydt, J.,An Extended Set of Haar-like Features for Rapid Object Detection // Proc. IEEE International Conference on Image Processing ICIP-2002. USA. 2002. P. 900-903.
Liang, L., Liu, X., Zhao, Y., Pi, X., Nefian, A., Speaker independent audio-visual continuous speech recognition. Proc. International Conference on Multimedia and Expo ICME-2002, Lausanne, Switzerland. 2002.