Технология сегментации «сигнал/пауза» на основе анализа уровня смешивания фрагментов речевых сигналов

350 руб

Журнал «Биомедицинская радиоэлектроника» №2 за 2025 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j15604136-202502-06

УДК: 615.47:616-072.7

Ключевые слова: Речевой сигнал сегментация «сигнал/пауза» быстрое преобразование Фурье средняя частота уровень смешивания фрагментов речевого сигнала

Авторы:

А.К. Алимурадов1, А.Ю. Тычков2, О.С. Симакова3, А.А. Мамонова4, З.М. Юлдашев5, Д.А. Темирова6

1–4 Пензенский государственный университет (г. Пенза, Россия)
5 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» (Санкт-Петербург, Россия)
6 Санкт-Петербургский государственный педиатрический медицинский университет (Санкт-Петербург, Россия)
1 tychkov-a@mail.ru, 2 alansapfir@yandex.ru, 3 zcsio@mail.ru, 4 mamonova.02@yandex.ru, 5 yuld@mail.ru, 6 temirova.2013@list.ru

Аннотация:

Постановка проблемы. Сегментация «сигнал/пауза» представляет собой ключевую задачу в области обработки речевых сигналов, заключающуюся в определении точных границ между речью и паузами. Влияние такого фактора, как фоновый шум, существенно затрудняет данный процесс, поскольку может искажать истинные границы сегментов речи и пауз. Необходимо разработать надежную технологию сегментации, обеспечивающую высокую достоверность определения речевых сегментов в присутствии фонового шума.

Цель. Разработать и исследовать технологию сегментации «сигнал/пауза», позволяющую эффективно различать уровни смешивания фрагментов речевого сигнала и достоверно определять границы сегментов речи и пауз.

Результаты. Получены данные, демонстрирующие высокий уровень достоверности определения границ речи и пауз. Наилучшие результаты сегментации, с ошибками 1,8% и 0,9%, достигнуты при сравнении с значениями среднего уровня смешивания фрагментов и медианы первых 20 фрагментов, соответствующих начальной паузе с фоновым шумом.

Практическая значимость. Предложенная технология сегментации «сигнал/пауза» имеет достаточную практическую ценность, поскольку ее применение позволяет существенно повысить достоверность в режиме реального времени и понизить вычислительную нагрузку. Это особенно важно для речевых приложений, обеспечивающих взаимодействия человека с компьютером посредством голосовых интерфейсов.

Страницы: 38-43

Для цитирования

Алимурадов А.К., Тычков А.Ю., Симакова О.С., Мамонова А.А., Юлдашев З.М., Темирова Д.А. Технология сегментации «сигнал/пауза» на основе анализа уровня смешивания фрагментов речевых сигналов // Биомедицинская радиоэлектроника. 2025. T. 28. № 2. С. 38−43. DOI: https://doi.org/10.18127/j15604136-202502-06

Список источников

Зилинберг А.Ю., Корнеев Ю.А., Томчук К.К. Анализ характеристик импульсных помех в тракте передачи речевых сигналов // Сборник докладов Научной сессии ГУАП. СПб.: ГУАП. 2011. Ч. 2. С. 19–20.
Amir N., Kerret O., Karlinski D. Classifying emotions in speech: a comparison of methods. Proc. 7th European Conference on Speech Communication and Technology (Eurospeech 2001). P. 127–130.
Amirgaliyev Y., Hahn M., Mussabayev T. The speech signal segmentation algorithm usingpitch synchronous analysis. Open Computer Science. 2017. V. 7. № 1. 8 p.
Алимурадов А.К., Тычков А.Ю., Чураков П.П. Новый подход к сегментации речевых сигналов на основе декомпозиции на эмпирические моды для оценки психоэмоционального состояния человека // Перспективные информационные технологии (ПИТ 2019) [Электронный ресурс]: Труды Международной научно-технической конференции. Самара: Изд-во Самарского науч. центра РАН. 2019. С. 366–369.
Алимурадов А.К. Повышение эффективности сегментации речевых сигналов на основе энергетического оператора Тигера // Измерения. Мониторинг. Управление. Контроль. 2021. № 3. С. 80–92.
Abdolali B., Sameti H. Method for speech segmentation based on speakers’ characteristics. Signal & Image Processing: An International Journal (SIPIJ). 2012. V. 3. № 2. P. 65–78.
Lu Z., Liu B., Shen L. Speech Endpoint Detection in Strong Noisy Environment Based on the Hilbert-Huang Transform. Proceedings of the 2009 IEEE International Conference on Mechatronics and Automation. 2009. 12 p.

Дата поступления: 17.01.2025

Одобрена после рецензирования: 24.02.2025

Принята к публикации: 06.03.2025