А.В. Коренной1, С.M. Алшавва2, Д.С. Юдаков3
1–3 ВУНЦ ВВС «ВВА им. проф. Н.Е. Жуковского и Ю.А. Гагарина» (г. Воронеж, Россия)
1 korennoj@mail.ru, 2 yds12345@rambler.ru, 3 ashawasafwan7@gmail.com
Постановка проблемы. При построении систем распознавания абонентов по голосу одним из наиболее важных этапов работы системы является извлечение информативных голосовых признаков речевого сигнала абонента. В дополнение к сложности вычислений, функционирование большинства известных методов извлечения голосовых признаков ухудшается при низких отношениях сигнал/шум, что влияет на точность формирования моделей голоса абонентов и сопоставления моделей, и, следовательно, на точность работы системы распознавания.
Цель. Рассмотреть возможность представления спектральной характеристики голосового тракта (речевого аппарата) абонента аппроксимирующими коэффициентами дискретного вейвлет-преобразования логарифма спектра речевого сигнала, позволяющую системе распознавания эффективно работать в условиях низких отношениях сигнал/шум (до 3 дБ) с низкими вычислительными требованиями.
Результаты. Предложен способ извлечения голосовых признаков в системах распознавания абонентов по голосу, позволяющий существенно повысить качество идентификаторов за счет фильтрующих свойств вейвлет-преобразования в условиях низких отношений сигнал/шум. Отмечено, что путем регулировки числа уровней разложения сигнала можно обеспечить компромисс между требованиями к качеству идентификаторов и вычислительными затратами при реализации системы распознавания по голосу.
Практическая значимость. Результаты экспериментов, проведенных с реальными абонентами, подтверждают возможность технической реализации предложенного способа в системах идентификации по голосу, функционирующих в реальном масштабе времени.
Коренной А.В., Алшавва С.M., Юдаков Д.С. Извлечение голосовых признаков речевого сигнала на основе дискретного вейвлет-преобразования // Успехи современной радиоэлектроники. 2024. T. 78. № 10. С. 10–16. DOI: https://doi.org/10.18127/ j20700784-202410-02
- Ravi P.R, Kevin R.F., Roopashri R., Richard J.M. Speaker recognition–general classifier approaches and data fusion methods // Pattern Recognition, Elsevier Science Ltd. 2002. V. 35. P. 2801–2821.
- Sahidullah M., Chakroborty S., Saha G. On the use of perceptual Line Spectral pairs Frequencies and higher-order residual moments for Speaker Identification // International. J. Biometrics. 2010. V. 2. № 4. P. 358–378.
- Nilu S. et al. MFCC and Prosodic Feature Extraction Techniques: A Comparative Study // International Journal of Computer Applications / Published by Foundation of Computer Science, New York, USA. Sept. 2012. V. 54(1). P. 9–13.
- Судьенкова А.В. Обзор методов извлечения акустических признаков речи в задаче распознавания диктора // Сб. науч. трудов НГТУ. 2019. № 3–4. С. 139–164.
- Rabiner L.R., Schafer R.W. Digital processing of speech signal. New Jersey, Prentice-Hall, 1978 (Russ. ed.: Rabiner L.R., Shafer R.V. Tsifrovaya obrabotka rechevykh signalov. Moscow. Radio i svyaz' Publ., 1981)
- Rabiner L., Juang B.-H. Fundamentals of speech recognition. NJ: Prentice-Hall, Inc., 1993.
- Wang F., Xu W. A comparison of algorithms for the calculation of LPC coefficients // Proceedings of International Conference on Information Science, Electronics and Electrical Engineering, Sapporo, Japan. 2014. P. 300–302.
- Mallat S. A Theory for Multiresolution Signal Decomposition: the Wavelet Representation // IEEE Pattern Anal. And Machine Intel. 1989. V. 11. № 7. P. 674–693.
- Mallat S.G. A Wavelet Tour of Signal Processing. Academic Press. 1997.
- Goswami J.C., Chan A.K. Fundamentals of Wavelets Theory, Algorithms and Applications. John Wiley & Sons Ltd. 1999.