350 руб
Журнал «Информационно-измерительные и управляющие системы» №7 за 2010 г.
Статья в номере:
Автоматическое распознавание аудиовизуальной русской речи с применением асинхронной модели
Ключевые слова:
распознавание речи
аудиовизуальная речь
скрытые марковские модели
асинхронность модальностей
многомодальный интерфейс
Авторы:
А. А. Карпов - к. т. н., с. н. с. лаб. речевых и многомодальных интерфейсов Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН). E-mail: karpov@iias.spb.su
Аннотация:
Представлено исследование модели автоматического бимодального распознавания аудиовизуальной русской речи с применением математического аппарата сдвоенных скрытых марковских моделей первого порядка, который позволяет производить объединение потоков векторов признаков от звуковой и визуальной модальностей речи на уровне состояний объединенной вероятностной модели. Модель позволяет учитывать временное рассогласование (асинхронность) потоков соответствующих элементов речи - фонем и визем, характерное для разговорной речи, и объединять информацию от двух речевых модальностей с учетом весовых коэффициентов их информативности. Представлены результаты распознавания слитной русской речи для словаря малого размера и сравнение бимодального распознавания с одномодальными моделями, которые показывают преимущества первых, особенно в условиях акустических шумов.
Страницы: 91-96
Список источников
- Karpov, A., Tsirulnik, L., Krnoul, Z., Ronzhin, A., Lobanov, B., Zelezny, M., Audio-Visual Speech Asynchrony Modeling in a Talking Head // In Proc. 10-th International Conference Interspeech-2009. Brighton. UK. 2009. P. 2911-2914.
- Карпов А., РонжинA., Лобанов Б., Цирульник Л., Железны М. Разработка бимодальной системы аудиовизуального распознавания русской речи // Информационно-измерительные и управляющие системы. 2008. Т. 6. № 10. С. 58-62.
- Nefian, A., Liang, L., Pi, X., Xiaoxiang, X., Mao, C.,and Murphy, K., A coupled hmm for audio-visual speech recognition. Proc. International Conference ICASSP-2002. Orlando. USA. 2002.
- Chu, S., Huang, T.,Multi-Modal sensory Fusion with Application to Audio-Visual Speech Recognition // Proc. Multi-modal Speech Recognition Workshop-2002. Greensboro. USA. 2002.
- Ронжин А. Л., Карпов А. А., Ли И. В. Речевой и многомодальный интерфейсы. М.: Наука(Информатика: неограниченныевозможностиивозможныеограничения). 2006.
- Lienhart, R., Maydt, J.,An Extended Set of Haar-like Features for Rapid Object Detection // Proc. IEEE International Conference on Image Processing ICIP-2002. USA. 2002. P. 900-903.
- Liang, L., Liu, X., Zhao, Y., Pi, X., Nefian, A., Speaker independent audio-visual continuous speech recognition. Proc. International Conference on Multimedia and Expo ICME-2002, Lausanne, Switzerland. 2002.