Квазиоптимальный алгоритм совместной фильтрации речевого сигнала и обнаружения в нем пауз

350 руб

Журнал «Антенны» №6 за 2023 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j03209601-202306-07

УДК: 004.093:57.087.1

Ключевые слова: Сегментация речевого сигнала фильтр Калмана спектральная плотность дисперсия ошибки отношение сигнал/шум порог обнаружения вероятность ошибки

Авторы:

А. В. Коренной1, Д. С. Юдаков2, С. M. Алшавва3
1–3 ВУНЦ ВВС «ВВА им. проф. Н.Е. Жуковского и Ю.А. Гагарина» (г. Воронеж, Россия)

1 korennoj@mail.ru, 2 yds12345@rambler.ru, 3 ashawasafwan7@gmail.com

Аннотация:

Постановка проблемы. При построении систем аутентификации по голосу одним из наиболее важных этапов работы алгоритма является сегментация входного сигнала по типу речь/пауза. Большинство известных алгоритмов функционируют при достаточно высоких отношениях сигнал/шум, а построение оптимального алгоритма обнаружения осложняется выбором копии сигнала, так как речь каждого человека обладает уникальными особенностями.

Цель. Разработать квазиоптимальный помехоустойчивый алгоритм совместной фильтрации речевого сигнала и обнаружения в нем пауз, который позволит работать в условиях высокого уровня шума.

Результаты. Предложен алгоритм, основанный на формировании оценки речевого сигнала при помощи фильтра Калмана и использовании этой оценки в качестве копии сигнала на этапе обнаружения. Установлено, что разработанный алгоритм позволяет осуществлять сегментацию речь/пауза при достаточно низких отношениях сигнал/шум, что подтверждается экспериментальными исследованиями.

Практическая значимость. Предложенный алгоритм сегментации речевых сигналов может быть использован на этапе предварительной обработки в системах идентификации абонентов радиосетей по голосу, а также при сжатии речевых сигналов при передаче по каналам связи.

Страницы: 61-67

Для цитирования

Коренной А.В., Юдаков Д.С., Алшавва С.M. Квазиоптимальный алгоритм совместной фильтрации речевого сигнала и обнаружения в нем пауз // Антенны. 2023. № 6. С. 61–67. DOI: https://doi.org/10.18127/j03209601-202306-07

Список источников

Beigi H. Fundamentals of speaker recognition. Springer Science + Business Media, LLC. 2011.
Campbell J.P. Speaker recognition: A tutorial // Proc. IEEE. 1997. V. 85. № 9. P. 1437–1462.
Atal B., Rabiner L.R. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // IEEE Transactions on Acoustics, Speech and Signal Processing. 1976. V. 24 (3). P. 201–212.
Childers D.G., Hand M., Larar J.M. Silent and voiced/unvoiced mixed excitation (four-way), classification of speech // IEEE Transaction on Acoustics, Speech and Signal Processing. 1989. V. 37 (11). P. 1771–1774.
Алимурадов А.К., Тычков А.Ю. Алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды и одномерного расстояния Махаланобиса // Труды МФТИ. 2021. Т. 13. № 3. С. 5–22.
Трифонов А.П., Шинаков Ю.С. Совместное различение сигналов и оценка их параметров на фоне помех. М.: Радио и связь. 1986.
Коренной А.В., Кулешов С.А. Основы статистической теории радиотехнических систем: Учеб. пособие / Под ред. А.В. Коренного. М.: Радиотехника. 2021.
Шейкин Р.Л. К анализу механизмов возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. 1966. С. 31–44.
Gonzalez S., Brookes M. PEFAC – a pitch estimation algorithm robust to high levels of noise // IEEE Transaction on Audio, Speech, Language Processing. 2014. V. 22. № 2. P. 518–530.
Harel M., Dov D., Cohen I., Meir R., Talmon R. Voiced-unvoiced-silence classification via hierarchical dual geometry analysis // ISCEE International Conference on the Science of Electrical Engineering. Technion City, Haifa. 2016.

Дата поступления: 10.10.2023

Одобрена после рецензирования: 02.11.2023

Принята к публикации: 21.11.2023