350 руб
Журнал «Успехи современной радиоэлектроники» №6 за 2016 г.
Статья в номере:
Методика оценки мягкой маски для задачи предобработки зашумленных речевых сигналов в системах идентификации диктора
Авторы:
Г.С. Тупицин - аспирант, Ярославский государственный университет им. П.Г. Демидова. E-mail: genichyar@genichyar.com А.И. Топников - к.т.н., ассистент, Ярославский государственный университет им. П.Г. Демидова. E-mail: topartgroup@gmail.com А.Л. Приоров - д.т.н., доцент, Ярославский государственный университет им. П.Г. Демидова. E-mail: andcat@yandex.ru
Аннотация:
Рассмотрена методика подавления шума, основанная на использовании мягких масок. Произведено обобщение математического определения мягкой маски, связанное с возможностью возведения ее в некоторую степень, определенную исходя из выбранного критерия оптимальности. Предложена методика оценки мягкой маски, а также двухступенчатый алгоритм шумоподавления на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременного амплитудного спектра.
Страницы: 73-80
Список источников

 

  1. Ortega-Garcia J., Gonzalez-Rodriguez J. Overview of speech enhancement techniques for automatic speaker recognition // Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP - 96. IEEE. 1996. V. 2. P. 929-932.
  2. Lu Y., Loizou P.C. Estimators of the Magnitude-Squared Spectrum and Methods for Incorporating SNR Uncertainty // IEEE Transactions on Audio, Speech, and Language Processing. 2011. V. 19. № 5. P. 1123-1137.
  3. Тупицин Г.С., Топников А.И., Приоров А.Л. Предобработка зашумленных речевых сигналов с помощью бинарных масок в задаче идентификации диктора // Наукоемкие технологии. 2015. № 11. С. 56-61.
  4. Тупицин Г.С., Кравцов С.А., Топников А.И., Приоров А.Л. Модификация алгоритма оценки бинарной маски в задаче подавления шума для системы идентификации диктора // Проектирование и технология электронных средств. 2015. № 3.  С. 32-37.
  5. Renevey P., Drygajlo A. Detection of reliable features for speech recognition in noisy conditions using a statistical criterion // Proceedings of Workshop on CRAC. 2001. P. 71-74.
  6. Wang D. On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis // Speech Separation by Humans and Machines. - Boston: Kluwer Academic Publishers. 2005. P. 181-197.
  7. Wang D. Time-Frequency Masking for Speech Separation and Its Potential for Hearing Aid Design // Trends in Amplification. 2008. V. 12. № 4. P. 332-353.
  8. Hu Y., Loizou P. Techniques for estimating the ideal binary mask // Proc. 11th Int. Workshop Acoust. Echo Noise Control. 2008. P. 154-157.
  9. Jensen J., Hendriks R.C. Spectral Magnitude Minimum Mean-Square Error Estimation Using Binary and Continuous Gain Functions // IEEE Transactions on Audio, Speech, and Language Processing. 2012. V. 20. № 1. P. 92-102.
  10. McAulay R., Malpass M. Speech enhancement using a soft-decision noise suppression filter // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. V. 28. № 2. P. 137-145.
  11. Тупицин Г.С. Предобработка речевых сигналов в системах автоматической идентификации диктора // Дисс. - к.т.н. Владимир: Владимирский государственный университет им. А.Г. и Н.Г. Столетовых. 2015.
  12. Lim J., Oppenheim A. Enhancement and bandwidth compression of noisy speech // Proceedings of the IEEE. 1979. V. 67. № 12. P. 1586-1604.
  13. Lu Y., Loizou P.C. A geometric approach to spectral subtraction // Speech Communication. 2008. V. 50. № 6. P. 453-466.
  14. Plapous C., Marro C., Mauuary L., Scalart P. A two-step noise reduction technique // IEEE International Conference on Acoustics, Speech, and Signal Processing. 2004. V. 1. P. 289-292.
  15. Ephraim Y., Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1984. V. 32. № 6. P. 1109-1121.
  16. Ephraim Y., Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1985. V. 33. № 2. P. 443-445.
  17. Тупицин Г.С., Топников А.И., Приоров А.Л. Модификация двухступенчатого алгоритма шумоподавления для улучшения качества идентификации диктора в условиях шумов // Информационные системы и технологии. 2015. № 6. С. 39-47.
  18. А.с. № 2015660245 Speaker Recognition Test Framework - программа для исследования алгоритмов распознавания диктора. Тупицин Г.С., Топников А.И., Приоров А.Л. Приоритет от 25 сентября 2015 г.
  19. Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. V. 28. № 4. P. 357-366.
  20. Mel Frequency Cepstral Coefficient (MFCC) tutorial - Practical cryptography [Электронный ресурс]. - Режим доступа: http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/.
  21. Первушин Е.А. Обзор основных методов распознавания дикторов // Математические структуры и моделирование. 2011. № 24. С. 41-54.
  22. Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing. 2000. V. 10. № 1-3. P. 19-41.
  23. Varga A., Steeneken H.J.M. Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems // Speech Communication. 1993. V. 12. № 3. P. 247-251.