350 руб
Журнал «Электромагнитные волны и электронные системы» №8 за 2015 г.
Статья в номере:
Детектор речевой активности на основе голосующих моделей гауссовских смесей
Авторы:
С.А. Кравцов - аспирант, Ярославский государственный университет им. П.Г. Демидова. E-mail: sk860@outlook.com А.И. Топников - к.т.н., ассистент, Ярославский государственный университет им. П.Г. Демидова. E-mail: topartgroup@gmail.com А.Л. Приоров - д.т.н., доцент, Ярославский государственный университет им. П.Г. Демидова. E-mail: andcat@yandex.ru
Аннотация:
Представлен детектор речевой активности, основанный на применении мел частотных кепстральных коэффициентов, меры спектральной плоскостности и моделей гауссовских смесей. Показано, что особенность предлагаемого алгоритма состоит в построении нескольких моделей для отдельных диапазонов отношения сигнал/шум и использовании процесса голосования для получения более достоверных результатов нахождения зашумленных речесодержащих фрагментов. Приведены результаты исследования работы представленного алгоритма и его сравнения с исходным.
Страницы: 29-34
Список источников

 

  1. Вознесенская Т.В., Котов М.А., Леднов Д.А. Гибридный детектор речи // Цифровая обработка сигналов. 2014. № 4. С. 53−56.
  2. Brady P.T. A technique for investigating On‑Off patterns of speech // Bell System Technical Journal. 1965. V. 44. № 1. P. 1−22.
  3. Rabiner L.R., Sambur M.R. An algorithm for determining the endpoints of isolated utterances // Bell Systems Technical Journal. 1975. V. 54. № 2. P. 297−315.
  4. Kondoz A.M. Digital speech. Coding for low-bit rate communication systems. JohnWilley & Sons. 2004. 442 p.
  5. Волченков В.А., Витязев В.В. Методы и алгоритмы детектирования активности речи // Цифровая обработка сигналов. 2013. № 1. С. 54−60.
  6. Rosen O., Mousazadeh S., Cohen I. Voice activity detection in presence of transient noise using spectral clustering and diffusion kernels // IEEE 28th Convention of Electrical & Electronics Engineers in Israel. 2014. P. 1−5.
  7. Mamiya Y., Yamagishi J., Watts O., Clark R., King S., Stan A. Lightly supervised GMM VAD to use audiobook for speech synthesiser // IEEE International Conference on Acoustics, Speech and Signal Processing. 2013. P. 7987−7991.
  8. Топников А.И., Веселов И.А., Новоселов С.А., Приоров А.Л. Выделение речевых команд на основе помехоустойчивых параметров и моделей гауссовых смесей // Проектирование и технология электронных средств. 2011. № 4. С. 31−35.
  9. Enqing D., Guizhong L., Yatong Z., Xiaodi Z. Applying support vector machines to voice activity detection // 6th International Conference on Signal Processing. 2002. V. 2. P. 1124−1127.
  10. Kinnunen T., Chernenko E., Tuononen M., Fränti P., Li H. Voice activity detection using MFCC features and support vector machine // International Conference on Speech and Computer. 2007. V. 2. P. 556−561.
  11. Wu J., Zhang X.L. Efficient multiple kernel support vector machine based voice activity detection // Signal Processing Letters. 2011. V. 18. № 8. P. 466−469.
  12. Zhang X.L., Wu J. Deep belief networks based voice activity detection // IEEE Transactions on Audio, Speech, and Language Processing. 2013. V. 21. № 4. P. 697−710.
  13. Chen S.H., Guido R.C., Truong T.K., Chang Y. Improved voice activity detection algorithm using wavelet and support vector machine // Computer Speech & Language. 2010. V. 24. № 3. P. 531−543.
  14. Ikedo J. Voice activity detection using neural network // IEICE transactions on communications. 1998. V. 81. № 12. P. 2509−2513.
  15. Pham T.V., Tang C.T., Stadtschnitzer M. Using artificial neural network for robust voice activity detection under adverse conditions // International Conference on Computing and Communication Technologies. 2009. P. 1−8.
  16. Hughes T., Mierle K. Recurrent neural networks for voice activity detection // IEEE International Conference on Acoustics, Speech and Signal Processing. 2013. P. 7378−7382.
  17. Sreekumar K.T., George K.K., Arunraj K., Kumar C.S. Spectral matching based voice activity detector for improved speaker recognition // International Conference on Power Signals Control and Computations. 2014. P. 1−4.
  18. Sohn J., Kim N.S., Sung W. A statistical model-based voice activity detection // Signal Processing Letters. 1999. V. 6. № 1. P. 1−3.
  19. Петухова Н.В., Васьковский С.В., Фархадов М.П. Компьютерные речевые технологии в современных информационных и сервисных системах // Информационно-измерительные и управляющие системы. 2013. № 3. С. 61−67.
  20. Moattar M.H., Homayounpour M.M. A simple but efficient real-time voice activity detection algorithm // 17th European Signal Processing Conference. 2009. P. 2549−2553.
  21. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Радио и связь. 2004. 164 с.