350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №5 за 2014 г.
Статья в номере:
Конверсия голоса в реальном масштабе времени при помощи искусственной нейронной сети с кусочно-линейной функцией активации
Авторы:
И. С. Азаров - к.т.н., Белорусский государственный университет информатики и радиоэлектроники. E-mail: azarov@bsuir.by М. И. Вашкевич - ассистент, Белорусский государственный университет информатики и радиоэлектроники. E-mail: vashkevich@bsuir.by А. А. Петровский - д.т.н., профессор, зав. кафедрой электронных вычислительных средств, Белорусский государственный университет информатики и радиоэлектроники. E-mail: palex@bsuir.by
Аннотация:
Предложен способ параметрической конверсии голоса, который может быть использован в приложениях, требующих обработки речи в реальном масштабе времени. Способ основан на преобразовании кратковременных спектральных огибающих речевого сигнала при помощи искусственной нейронной сети с кусочно-линейной функцией активации. Для снижения эффекта усреднения огибающих использована специальная конфигурация сети, которая позволяет учитывать временные состояния говорящего. Речь представляется в параметрическом виде при помощи модели гармоника + шум, использующей мгновенные гармонические параметры. Предложенный способ конверсии речевого сигнала сравнивается с основными существующими альтернативами, используя объективные и субъективные оценки.
Страницы: 18-28
Список источников

  1. Stylianou Y., Cappe O., Moulines E. Continuous probabilistic transform for voice conversion // IEEE Trans. Speech Audio Process. 1998. V. 6. № 2. P. 131-142.
  2. Toda T., Black A.W., Tokuda K. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory // IEEE Trans. Audio, Speech and Language Processing. 2007. V. 15. № 8. P. 2222-2235.
  3. Toda T., Muramatsu T., Banno H. Implementation of computationally efficient real-time voice conversion // Proc. INTER­SPEECH. Portland. USA. Sep. 2012.
  4. Peng D., Zhang X., Sun J. Voice conversion based on GMM and artificial neural network // Proc. ICCT. Nanjing. China. Nov. 2010. P. 1121-1124.
  5. Godoy E., Rosec O., Chonavel T. Spectral envelope transformation using DFW and amplitude scaling for voice conversion with parallel or nonparallel corpora // Proc. INTERSPEECH. Florence. Italy. Aug. 2011.
  6. Erro D., Navas E., Hernaez I. Parametric voice conversion based on bilinear frequency warping plus amplitude scaling // IEEE Trans. Audio, Speech and Language Processing. 2013. V. 21. № 3. P. 556-566.
  7. Narendranath M., Murthy H.A., Rajendran S., Yegnanarayana B. Transformation of formants for voice conversion using artificial neural networks // Speech Communication. 1995. V. 16. P. 207-216.
  8. Desai S., Black A.W., Yegnanarayana B., Prahallad B. Spectral mapping using artificial neural networks for voice conversion // IEEE Trans. Audio, Speech and Language Processing. 2010. V. 18. № 5. P. 954-964.
  9. Zeiler M., Ranzato M., Monga R., Mao M., et al. On rectified linear units for speech processing // Proc. ICASP. Vancouver. Canada. May 2013.
  10. Kawaahra H., Nisimura R., Irino T., Morise M., Takahashi T., Banno B. Temporally variable multi-aspect auditory morphing enabling extrapolation without objective and perceptual breakdown // Proc. ICASSP. Taipei. Taiwan. April 2009.
  11. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proc. EUSIPCO. Bucharest. Romania. Aug. 2012.
  12. Azarov E., Petrovsky A. Real-time voice conversion based on instantaneous harmonic parameters // Proc. ICASSP. Prague. CzechRepublic. May 2011.
  13. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика. 2002. 344 с.
  14. Bacon S., Grantham D. Modulation masking: effects of modulation frequency, depth, and phase // Journal of acoustical society of America. 1989. V. 85. P. 2575-2580.
  15. Nair V., Hinton G.E. Rectified linear units improve restricted Boltzmann machines // Proc. ICML. Haifa. Israel. June 2010.
  16. Lee K.Y., Zhao Y. Statistical conversion algorithms of pitch contours based on prosodic phrases // Proceedings of the International Conference "Speech Prosody 2004" (SP 2004). Nara. Japan. March 23-26 2004. CD-ROM.