А.К. Алимурадов1, А.Ю. Тычков2, О.С. Симакова3, А.А. Мамонова4, З.М. Юлдашев5, Д.А. Темирова6
1–4 Пензенский государственный университет (г. Пенза, Россия)
5 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» (Санкт-Петербург, Россия)
6 Санкт-Петербургский государственный педиатрический медицинский университет (Санкт-Петербург, Россия)
1 tychkov-a@mail.ru, 2 alansapfir@yandex.ru, 3 zcsio@mail.ru, 4 mamonova.02@yandex.ru, 5 yuld@mail.ru, 6 temirova.2013@list.ru
Постановка проблемы. Сегментация «сигнал/пауза» представляет собой ключевую задачу в области обработки речевых сигналов, заключающуюся в определении точных границ между речью и паузами. Влияние такого фактора, как фоновый шум, существенно затрудняет данный процесс, поскольку может искажать истинные границы сегментов речи и пауз. Необходимо разработать надежную технологию сегментации, обеспечивающую высокую достоверность определения речевых сегментов в присутствии фонового шума.
Цель. Разработать и исследовать технологию сегментации «сигнал/пауза», позволяющую эффективно различать уровни смешивания фрагментов речевого сигнала и достоверно определять границы сегментов речи и пауз.
Результаты. Получены данные, демонстрирующие высокий уровень достоверности определения границ речи и пауз. Наилучшие результаты сегментации, с ошибками 1,8% и 0,9%, достигнуты при сравнении с значениями среднего уровня смешивания фрагментов и медианы первых 20 фрагментов, соответствующих начальной паузе с фоновым шумом.
Практическая значимость. Предложенная технология сегментации «сигнал/пауза» имеет достаточную практическую ценность, поскольку ее применение позволяет существенно повысить достоверность в режиме реального времени и понизить вычислительную нагрузку. Это особенно важно для речевых приложений, обеспечивающих взаимодействия человека с компьютером посредством голосовых интерфейсов.
Алимурадов А.К., Тычков А.Ю., Симакова О.С., Мамонова А.А., Юлдашев З.М., Темирова Д.А. Технология сегментации «сигнал/пауза» на основе анализа уровня смешивания фрагментов речевых сигналов // Биомедицинская радиоэлектроника. 2025. T. 28. № 2. С. 38−43. DOI: https://doi.org/10.18127/j15604136-202502-06
- Зилинберг А.Ю., Корнеев Ю.А., Томчук К.К. Анализ характеристик импульсных помех в тракте передачи речевых сигналов // Сборник докладов Научной сессии ГУАП. СПб.: ГУАП. 2011. Ч. 2. С. 19–20.
- Amir N., Kerret O., Karlinski D. Classifying emotions in speech: a comparison of methods. Proc. 7th European Conference on Speech Communication and Technology (Eurospeech 2001). P. 127–130.
- Amirgaliyev Y., Hahn M., Mussabayev T. The speech signal segmentation algorithm usingpitch synchronous analysis. Open Computer Science. 2017. V. 7. № 1. 8 p.
- Алимурадов А.К., Тычков А.Ю., Чураков П.П. Новый подход к сегментации речевых сигналов на основе декомпозиции на эмпирические моды для оценки психоэмоционального состояния человека // Перспективные информационные технологии (ПИТ 2019) [Электронный ресурс]: Труды Международной научно-технической конференции. Самара: Изд-во Самарского науч. центра РАН. 2019. С. 366–369.
- Алимурадов А.К. Повышение эффективности сегментации речевых сигналов на основе энергетического оператора Тигера // Измерения. Мониторинг. Управление. Контроль. 2021. № 3. С. 80–92.
- Abdolali B., Sameti H. Method for speech segmentation based on speakers’ characteristics. Signal & Image Processing: An International Journal (SIPIJ). 2012. V. 3. № 2. P. 65–78.
- Lu Z., Liu B., Shen L. Speech Endpoint Detection in Strong Noisy Environment Based on the Hilbert-Huang Transform. Proceedings of the 2009 IEEE International Conference on Mechatronics and Automation. 2009. 12 p.

