Н.А. Миронов – преподаватель, кафедра «Математика, информатика и информационные технологии», Нижегородская академия МВД России E-mail: electro112@mail.ru
Постановка проблемы. Работа посвящена актуальной проблеме выделения одного речевого сообщения из голосовой смеси, более известной как «the Cocktail Party Problem». Современные решения в данной области связаны с применением массива микрофонов для выделения речи определенного человека. Особую ценность представляют исследования по выделению речи в условиях, максимально приближенных к реальным.
Цель. Исследовать устойчивость работы алгоритма обработки речевого сигнала микрофонной решеткой в реальных условиях. Алгоритм заключается во введении временных задержек, зависящих от пространственных координат полезного источника, в каждый канал обработки сигналов и дальнейшем определении оптимального весового вектора микрофонной решетки. Результаты. В реальных условиях звук многократно отражается, поэтому при проведении расчетов был учтен эффект реверберации. Энергия речевого сообщения полезного сигнала может значительно отличаться от энергии сигнала помехи, поэтому была проанализирована работа алгоритма по выделению «тихого» голоса. При разговоре человек может перемещаться в пространстве, поэтому был проведен эксперимент по выделению голоса движущегося диктора. В ходе исследования доказано, что предложенный алгоритм устойчив к эффекту реверберации звука. Определен минимально возможный уровень полезного сигнала по отношению к уровню сигналов источников помех (−20,5 Дб), при котором сохраняется удовлетворительный уровень разборчивости речи. При использовании информации о траектории движения диктора от независимых каналов определения местоположения удалось выделить голос движущегося источника из помех с уровнем словесной разборчивости в 93,23%.
Практическая значимость. Результаты данной работы могут быть полезны специалистам, занимающимся разработкой акустических систем наблюдения и обеспечением безопасности в местах массового скопления граждан.
- Столбов М.Б. Применение микрофонных решеток для дистанционного сбора речевой информации // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 4. С. 661−675.
- Канаков В.А., Миронов Н.А. Пространственная обработка широкополосных сигналов на примере речевых сообщений // Известия ВУЗов. Радиофизика. 2018. Т. 61. № 1. С. 85−91.
- ГОСТ Р 51061-97. Системы низкоскоростной передачи по цифровым каналам. М. 1997. 24 с.
- Канаков В.А., Миронов Н.А. О выделении акустического сигнала на фоне интенсивных пространственно-распределенных помех // Современное состояние естественных и технических наук. 2014. Т. 17. С. 8-11.
- Гид по эффектам: что такое реверберация. URL = https://samesound.ru/p/mixing/94818-reverberation-starter-guide (дата обращения 22.03.2019).
- Покровский Н.Б. Расчет и измерение разборчивости речи // М.: Гос. изд-во лит. по вопросам связи и радио. 1962. 391 с.
- Алдошина И.А. Основы психоакустики. Ч. 12. Громкость сложных звуков // Звукорежиссер. 2000. № 9. С. 66-72. URL = http://digitalmusicacademy.ru/sites/default/files/content/aldoshina-psihoakustika.pdf (дата обращения 22.03.2019).
- Канаков В.А., Миронов Н.А. Выделение речевого сообщения из помех, вносимых сторонними распределенными источниками // Известия ВУЗов. Радиофизика. 2017. Т. 60. № 3. С. 281-287.