Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента

350 руб

Журнал «Электромагнитные волны и электронные системы» №5 за 2023 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j5604128-202305-02

УДК: 004.093:57.087.1

Ключевые слова: Сегментация речевого сигнала участки речь/пауза корреляционная функция спектральная плотность дисперсия по-рог обнаружения

Авторы:

А.В. Коренной1, Д.С. Юдаков2, А.П. Чернышов3, С. Алшавва4

1–4 ВУНЦ ВВС «ВВА имени профессора Н.Е. Жуковского и Ю.А. Гагарина» (г. Воронеж, Россия)

1 korennoj@mail.ru, 2 yds12345@rambler.ru, 3 cherntol19@yandex.ru, 4 ashawasafwan7@gmail.com

Аннотация:

Постановка проблемы. Одним из наиболее важных этапов предварительной обработки речевого сигнала при автоматической идентификации абонента в радиосетях является его сегментация на отдельные участки, содержащие речь и паузы. Большинство алгоритмов сегментации работают в условиях чистого сигнала или при очень больших отношениях сигнал/шум. Одной из основных проблем обработки речевого сигнала является низкое качество функционирования алгоритмов сегментации сигнала на участки речь/пауза в условиях воздействия шумов. Это приводит к тому, что паузы участвуют в измерении идентификаторов, что, в свою очередь, негативно сказывается на результате работы всей системы. Точное обнаружение границ участков пауз позволит повысить качество вычисленных идентификаторов, облегчит работу последующих этапов алгоритма идентификации абонента, а также снизит вычислительную нагрузку (поскольку паузы не несут в себе информацию, они могут быть удалены).

Цель. Разработать алгоритм сегментации речевого сигнала на участки речь/пауза, позволяющий производить обнаружение участков пауз в речи при достаточно низких отношениях сигнал/шум.

Результаты. Предложен алгоритм определения пауз в речевых сигналах, суть которого заключается в использовании различий в корреляционных (энергетических) свойствах речевого сигнала и шума. Алгоритм включает в себя измерение значений автокорреляционной функции входного сигнала в текущем времени, анализ этих значений и принятие решения об обнаружении (необнаружении) паузы. Для определения эффективности функционирования синтезированного алгоритма было проведено его статистическое моделирование. Получено выражение для величины порога, при котором возможно гарантированно верное принятие решения об обнаружении сигнала. Определена зависимость между минимальным отношением сигнал/шум и величиной интервала усреднения. Доказано, что ограничение интервала усреднения при измерении дисперсии является причиной возникновения ошибки.

Практическая значимость. Разработанный помехоустойчивый алгоритм сегментации речевого сигнала позволяет производить гарантированное обнаружение участков, содержащих речь, что дает возможность использовать его в системах, работающих в сложной сигнально-помеховой обстановке (в системах радиосвязи военного назначения). Предложенный алгоритм может применяться в качестве одного из этапов предварительной обработки речевого сигнала в системах верификации и идентификации абонента по голосу.

Страницы: 15-23

Список источников

Ролдугин С.В., Голубинский А.Н., Вольская Т.А. Модели речевых сигналов для идентификации личности по голосу // Радиотехника. 2002. № 11. С. 79–81.
Фархадов М.П., Васьковский С.В. Системы распознавания речи в ведомственных сетях // Электромагнитные волны и электронные системы. 2019. Т. 24. № 5. С. 25–31. DOI 10.18127/j15604128-201905-04.
Atal B., Rabiner L.R. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1976. V. 24. №. 3. P. 201–212. DOI 10.1109/TASSP.1976. 1162800.
Childers D.G., Hahn M., Larar J.N. Silent and voiced/unvoiced/mixed excitation (four-way) classification of speech // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1989. V. 37. № 11. P. 1771–1774. DOI 10.1109/29.46561.
Greenwood M., Kinghorn A. SUVing: Automatic Silence / Unvoiced / Voiced Classification of Speech: Undergraduate Coursework. Department of Computer Science. The University of Sheffield. UK. 1999. 4 p.
Лялин С.Г. Метод шумоподавления в речевых сигналах с помощью нейронной сети // Advanced Science. 2019. № 2(13). С. 32–38. DOI 10.25730/VSU.0536.19.021
Алимурадов А.К., Тычков А.Ю., Чураков П.П., Агейкин А.В., Кулешов А.П., Чернов И.А. Алгоритм сегментации речь/пауза на основедекомпозиции на эмпирические моды и одномерного расстояния Махаланобиса // Труды Московского физико-технического института (национального исследовательского университета). 2021. Т. 13. № 3(51). С. 4–22. DOI 10.53815/ 20726759_2021_13_3_4.
Радзиевский В.Г., Трифонов П.А. Обработка сверхширокополосных сигналов и помех. М.: Радиотехника. 2009. 286 с. ISBN 978-5-88070-231-2.
Трифонов А.П., Шинаков Ю.С. Совместное различение сигналов и оценка их параметров на фоне помех. М.: Радио и связь. 1986. 264 с.
Шейкин Р.Л. К анализу механизмов возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. М., Л.: Наука. 1966. С. 31–44.

Дата поступления: 09.08.2023

Одобрена после рецензирования: 31.08.2023

Принята к публикации: 26.09.2023