А. В. Коренной1, Д. С. Юдаков2, С. M. Алшавва3
1–3 ВУНЦ ВВС «ВВА им. проф. Н.Е. Жуковского и Ю.А. Гагарина» (г. Воронеж, Россия)
1 korennoj@mail.ru, 2 yds12345@rambler.ru, 3 ashawasafwan7@gmail.com
Постановка проблемы. При построении систем аутентификации по голосу одним из наиболее важных этапов работы алгоритма является сегментация входного сигнала по типу речь/пауза. Большинство известных алгоритмов функционируют при достаточно высоких отношениях сигнал/шум, а построение оптимального алгоритма обнаружения осложняется выбором копии сигнала, так как речь каждого человека обладает уникальными особенностями.
Цель. Разработать квазиоптимальный помехоустойчивый алгоритм совместной фильтрации речевого сигнала и обнаружения в нем пауз, который позволит работать в условиях высокого уровня шума.
Результаты. Предложен алгоритм, основанный на формировании оценки речевого сигнала при помощи фильтра Калмана и использовании этой оценки в качестве копии сигнала на этапе обнаружения. Установлено, что разработанный алгоритм позволяет осуществлять сегментацию речь/пауза при достаточно низких отношениях сигнал/шум, что подтверждается экспериментальными исследованиями.
Практическая значимость. Предложенный алгоритм сегментации речевых сигналов может быть использован на этапе предварительной обработки в системах идентификации абонентов радиосетей по голосу, а также при сжатии речевых сигналов при передаче по каналам связи.
Коренной А.В., Юдаков Д.С., Алшавва С.M. Квазиоптимальный алгоритм совместной фильтрации речевого сигнала и обнаружения в нем пауз // Антенны. 2023. № 6. С. 61–67. DOI: https://doi.org/10.18127/j03209601-202306-07
- Beigi H. Fundamentals of speaker recognition. Springer Science + Business Media, LLC. 2011.
- Campbell J.P. Speaker recognition: A tutorial // Proc. IEEE. 1997. V. 85. № 9. P. 1437–1462.
- Atal B., Rabiner L.R. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // IEEE Transactions on Acoustics, Speech and Signal Processing. 1976. V. 24 (3). P. 201–212.
- Childers D.G., Hand M., Larar J.M. Silent and voiced/unvoiced mixed excitation (four-way), classification of speech // IEEE Transaction on Acoustics, Speech and Signal Processing. 1989. V. 37 (11). P. 1771–1774.
- Алимурадов А.К., Тычков А.Ю. Алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды и одномерного расстояния Махаланобиса // Труды МФТИ. 2021. Т. 13. № 3. С. 5–22.
- Трифонов А.П., Шинаков Ю.С. Совместное различение сигналов и оценка их параметров на фоне помех. М.: Радио и связь. 1986.
- Коренной А.В., Кулешов С.А. Основы статистической теории радиотехнических систем: Учеб. пособие / Под ред. А.В. Коренного. М.: Радиотехника. 2021.
- Шейкин Р.Л. К анализу механизмов возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. 1966. С. 31–44.
- Gonzalez S., Brookes M. PEFAC – a pitch estimation algorithm robust to high levels of noise // IEEE Transaction on Audio, Speech, Language Processing. 2014. V. 22. № 2. P. 518–530.
- Harel M., Dov D., Cohen I., Meir R., Talmon R. Voiced-unvoiced-silence classification via hierarchical dual geometry analysis // ISCEE International Conference on the Science of Electrical Engineering. Technion City, Haifa. 2016.