350 руб
Журнал «Успехи современной радиоэлектроники» №6 за 2016 г.
Статья в номере:
Методика оценки мягкой маски для задачи предобработки зашумленных речевых сигналов в системах идентификации диктора
Авторы:
Г.С. Тупицин - аспирант, Ярославский государственный университет им. П.Г. Демидова. E-mail: genichyar@genichyar.com
А.И. Топников - к.т.н., ассистент, Ярославский государственный университет им. П.Г. Демидова. E-mail: topartgroup@gmail.com
А.Л. Приоров - д.т.н., доцент, Ярославский государственный университет им. П.Г. Демидова. E-mail: andcat@yandex.ru
Аннотация:
Рассмотрена методика подавления шума, основанная на использовании мягких масок. Произведено обобщение математического определения мягкой маски, связанное с возможностью возведения ее в некоторую степень, определенную исходя из выбранного критерия оптимальности. Предложена методика оценки мягкой маски, а также двухступенчатый алгоритм шумоподавления на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременного амплитудного спектра.
Страницы: 73-80
Список источников
- Ortega-Garcia J., Gonzalez-Rodriguez J. Overview of speech enhancement techniques for automatic speaker recognition // Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP - 96. IEEE. 1996. V. 2. P. 929-932.
- Lu Y., Loizou P.C. Estimators of the Magnitude-Squared Spectrum and Methods for Incorporating SNR Uncertainty // IEEE Transactions on Audio, Speech, and Language Processing. 2011. V. 19. № 5. P. 1123-1137.
- Тупицин Г.С., Топников А.И., Приоров А.Л. Предобработка зашумленных речевых сигналов с помощью бинарных масок в задаче идентификации диктора // Наукоемкие технологии. 2015. № 11. С. 56-61.
- Тупицин Г.С., Кравцов С.А., Топников А.И., Приоров А.Л. Модификация алгоритма оценки бинарной маски в задаче подавления шума для системы идентификации диктора // Проектирование и технология электронных средств. 2015. № 3. С. 32-37.
- Renevey P., Drygajlo A. Detection of reliable features for speech recognition in noisy conditions using a statistical criterion // Proceedings of Workshop on CRAC. 2001. P. 71-74.
- Wang D. On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis // Speech Separation by Humans and Machines. - Boston: Kluwer Academic Publishers. 2005. P. 181-197.
- Wang D. Time-Frequency Masking for Speech Separation and Its Potential for Hearing Aid Design // Trends in Amplification. 2008. V. 12. № 4. P. 332-353.
- Hu Y., Loizou P. Techniques for estimating the ideal binary mask // Proc. 11th Int. Workshop Acoust. Echo Noise Control. 2008. P. 154-157.
- Jensen J., Hendriks R.C. Spectral Magnitude Minimum Mean-Square Error Estimation Using Binary and Continuous Gain Functions // IEEE Transactions on Audio, Speech, and Language Processing. 2012. V. 20. № 1. P. 92-102.
- McAulay R., Malpass M. Speech enhancement using a soft-decision noise suppression filter // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. V. 28. № 2. P. 137-145.
- Тупицин Г.С. Предобработка речевых сигналов в системах автоматической идентификации диктора // Дисс. - к.т.н. Владимир: Владимирский государственный университет им. А.Г. и Н.Г. Столетовых. 2015.
- Lim J., Oppenheim A. Enhancement and bandwidth compression of noisy speech // Proceedings of the IEEE. 1979. V. 67. № 12. P. 1586-1604.
- Lu Y., Loizou P.C. A geometric approach to spectral subtraction // Speech Communication. 2008. V. 50. № 6. P. 453-466.
- Plapous C., Marro C., Mauuary L., Scalart P. A two-step noise reduction technique // IEEE International Conference on Acoustics, Speech, and Signal Processing. 2004. V. 1. P. 289-292.
- Ephraim Y., Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1984. V. 32. № 6. P. 1109-1121.
- Ephraim Y., Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1985. V. 33. № 2. P. 443-445.
- Тупицин Г.С., Топников А.И., Приоров А.Л. Модификация двухступенчатого алгоритма шумоподавления для улучшения качества идентификации диктора в условиях шумов // Информационные системы и технологии. 2015. № 6. С. 39-47.
- А.с. № 2015660245 Speaker Recognition Test Framework - программа для исследования алгоритмов распознавания диктора. Тупицин Г.С., Топников А.И., Приоров А.Л. Приоритет от 25 сентября 2015 г.
- Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. V. 28. № 4. P. 357-366.
- Mel Frequency Cepstral Coefficient (MFCC) tutorial - Practical cryptography [Электронный ресурс]. - Режим доступа: http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/.
- Первушин Е.А. Обзор основных методов распознавания дикторов // Математические структуры и моделирование. 2011. № 24. С. 41-54.
- Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing. 2000. V. 10. № 1-3. P. 19-41.
- Varga A., Steeneken H.J.M. Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems // Speech Communication. 1993. V. 12. № 3. P. 247-251.