Предобработка зашумленных речевых сигналов с помощью бинарных масок в задаче идентификации диктора

350 руб

Журнал «Наукоемкие технологии» №11 за 2015 г.

Статья в номере:

Ключевые слова: речевой сигнал шумоподавление идентификация диктора бинарные маски

Авторы:

Г.С. Тупицин - аспирант, кафедра динамики электронных систем, Ярославский государственный университет им. П.Г. Демидова. E-mail: genichyar@genichyar.com А.И. Топников - к.т.н., кафедра динамики электронных систем, Ярославский государственный университет им. П.Г. Демидова. E-mail: topartgroup@gmail.com А.Л. Приоров - д.т.н., доцент, кафедра динамики электронных систем, Ярославский государственный университет им. П.Г. Демидова. E-mail: andcat@yandex.ru

Аннотация:

Представлен алгоритм шумоподавления с помощью бинарных масок, использующий пороговое решающее правило на основе априорного отношения сигнал/шум, оцениваемого с помощью двухступенчатого алгоритма. Произведено тестирование предложенного алгоритма и сравнение с существующими в задаче идентификации диктора.

Страницы: 56-61

Список источников

Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. Распознавание личности по голосу: аналитический обзор // Информационные процессы. 2012. Т. 12. № 1. С. 1−30.
Furui S. An overview of speaker recognition technology // ESCA Workshop on Automatic Speaker Recognition, Identification and Verification. 1994. P. 1−9.
Bansal S., Hooda A., Anima Speaker identification system using close set // International journal of research in Engineering and Technology. 2012. V. 1. № 3. P. 411−414.
May T., van de Par S., Kohlrausch A. Noise-robust speaker recognition combining missing data techniques and universal background modeling // Audio, Speech, and Language Processing, IEEE Transactions on. 2012. V. 20. № 1. P. 108−121.
Ortega-Garcia J., Gonzalez-Rodriguez J. Overview of speech enhancement techniques for automatic speaker recognition // Spoken Language. 1996. ICSLP-96. Proceedings. FourthInternationalConferenceon. 1996. V. 2. P. 929−932.
Boll S. Suppression of acoustic noise in speech using spectral subtraction // Acoustics, Speech and Signal Processing, IEEE Transactions on. 1979. V. 27. № 2. P. 113−120.
Нефедов В.И., Егорова Е.В., Пугачев О.И., Герасимов A.B. Применение цифровой обработки для фильтрации шума в звуковых сигналах // Нелинейный мир. 2009. Т. 7. № 11. С. 869−871.
Lim J.S., Oppenheim A.V. Enhancement and bandwidth compression of noisy speech // Proceedings of the IEEE. 1979. V. 67. P. 1586−1604.
McAulay R.J., Malpass M.L. Speech enhancement using a soft-decision noise suppression filter // Acoustics, Speech and Signal Processing, IEEE Transactions on. 1980. V. 28. № 2. P. 137−145.
Ephraim Y., Malah D. Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator // Acoustics, Speech and Signal Processing, IEEE Transactions on. 1984. V. 32. № 6. P. 1109−1121.
Scalart P., Filho J.V. Speech enhancement based on a priori signal to noise estimation // Acoustics, Speech and Signal Processing, IEEE Transactions on. 1996. V. 2. P. 629−632.
Plapous C., Marro C., Scalart P., Mauuary L. A Two-Step Noise Reduction Technique // Acoustics, Speech, and Signal Processing. 2004. Proceedings. (ICASSP \'04). IEEEInternationalConferenceon. 2004. V. 1. P. 289−292.
Новоселов С.А., Топников А.И., Савватин А.И., Приоров А.Л. Подавление шума в речевых сигналах на основе метода нелокального усреднения // Цифровая обработка сигналов. 2011. № 4. С. 23−28.
Mysore G.J., Smaragdis P. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics // Acoustics, Speech and Signal Processing (ICASSP). 2011 IEEEInternationalConferenceon. 2011. P. 17−20.
Sprechmann P., Bronstein A., Bronstein M., Sapiro G. Learnable low rank sparse models for speech denoising // Acoustics, Speech and Signal Processing (ICASSP-2013). IEEEInternationalConferenceon. 2013. P. 136−140.
Seltzer M., Raj B., Stern R. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition // Speech Communication. 2004. V. 43. P. 379−393.
Roman N., Wang D. Pitch-based monaural segregation of reverberant speech // The Journal of the Acoustical Society of America. 2006. V. 120. P. 458−469.
Roman N., Wang D., Brown G. Speech segregation based on sound localization // The Journal of the Acoustical Society of America. 2003. V. 114. P. 2236−2252.
Renevey P., Drygajlo A. Detection of reliable features for speech recognition in noisy conditions using a statistical criterion // Proceedings of the Consistent and Reliable Acoustic Cues for Sound Analysis Workshop. 2001. P. 71−74.
Hu Y., Loizou P. Techniques for estimating the ideal binary mask // Proceedings 11th International Workshop on Acoustic and Echo Noise Control. 2008.
Varga A., Steeneken H.J.M. Assessment for automatic speech recognition: II. NOISEX‑92: A database and an experiment to study the effect of additive noise on speech recognition systems // Speech Communication. 1993. № 3. P. 247−251.