Г.С. Тупицин – к.т.н., кафедра инфокоммуникаций и радиофизики,
Ярославский государственный университет им. П.Г. Демидова
E-mail: genichyar@genichyar.com
А.И. Топников – к.т.н., доцент, кафедра инфокоммуникаций и радиофизики,
Ярославский государственный университет им. П.Г. Демидова
E-mail: topartgroup@gmail.com
А.Л. Приоров – д.т.н., доцент, кафедра инфокоммуникаций и радиофизики,
Ярославский государственный университет им. П.Г. Демидова E-mail: andcat@yandex.ru
Представлена методика быстрой оценки точности идентификации дикторов, основанная на применении объективных показателей качества речевых сигналов. Отмечено, что работа является продолжением исследований, направленных на создание комбинированного показателя качества, позволяющего оценивать точность идентификации дикторов без непосредственного использования самой системы идентификации. Представлены результаты, свидетельствующие о возможности уменьшения тестовой выборки речевых сигналов с целью ускорения исследований при сохранении относительно высокой достоверности итоговых результатов. Показано, что предложенная методика опосредованной оценки точности идентификации дикторов может быть использована в задаче подбора параметров алгоритмов подавления шума для использования в системе автоматической идентификации диктора по голосу.
- Matrouf D., W. Ben Kheder, Bousquet P.M., Ajili M., Bonastre J.F. Dealing with additive noise in speaker recognition systems based on i-vector approach // 23rd European Signal Processing Conference (EUSIPCO). 2015. P. 2092−2096.
- Zhao X., Wang Y., Wang D. Robust speaker identification in noisy and reverberant conditions // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. V. 22. № 4. P. 3997−4001.
- Zheng T.F., L. Li. Robustness-Related Issues in Speaker Recognition. Springer Singapore. 2017.
- Ortega-Garcia J., Gonzalez-Rodriguez J. Overview of speech enhancement techniques for automatic speaker recognition // IEEE Proceeding of Fourth International Conference on Spoken Language Processing (ICSLP). 1996. V. 2. P. 929−932.
- Тупицин Г.С., Топников А.И., Приоров А.Л. Методика оценки мягкой маски для задачи предобработки зашумленных речевых сигналов в системах идентификации диктора // Успехи современной радиоэлектроники. 2016. № 6. P. 73−80.
- Тупицин Г.С. Предобработка речевых сигналов в системах автоматической идентификации диктора / Дис. … канд. техн. наук: 05.12.04. Владимир: Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых. 2015.
- Тупицин Г.С., Топников А.И., Приоров А.Л. Модификация двухступенчатого алгоритма шумоподавления для улучшения качества идентификации диктора в условиях шумов // Информационные системы и технологии. 2015. № 6. P. 39−47.
- Zeinali H., Sameti H., Babaali B. A Fast Speaker Identification Method Using Nearest Neighbor Distance // IEEE International Conference on Signal Processing (ICSP). 2012. P. 6−9.
- Tupitsin G., Topnikov A., Priorov A. Two-step noise reduction based on soft mask for robust speaker identification // IEEE 18th Conference of Open Innovations Association and Seminar on Information Security and Protection of Information Technology (FRUCT-ISPIT). 2016. P. 351−356.
- Kinnunen T., Karpov E., Franti P. Real-time speaker identification and verification // IEEE Transactions on Audio, Speech and Language Processing. 2006. V. 14. № 1. P. 277−288.
- Battula V.K., Gottapu A.N. General Kalman Filter & Speech Enhancement for Speaker Identification // International Journal on Cybernetics & Informatics. 2016. V. 5. № 4. P. 117−126.
- Тупицин Г.С., Топников А.И. Комбинированный показатель качества речевых сигналов для оценки точности идентификации дикторов // Материалы 11-й Междунар. научно-технич. конф. «Перспективные технологии в средствах передачи информации». Владимир. 2015. P. 240−243.
- Тупицин Г.С., Топников А.И., Приоров А.Л. Speaker Recognition Test Framework – программа для исследования алгоритмов распознавания диктора // Свидетельство о государственной регистрации программы для ЭВМ № 2015660245 от 25 сентября 2015 г.
- Cummins F., Grimaldi M., Leonard T., Simko J. The CHAINS Speech Corpus: CHAracterizing INdividual Speakers // Proc of SPECOM. 2006. P. 1−6.
- Varga A., Steeneken H.J.M. Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems // Speech Communication. 1993. V. 12. № 3. P. 247−251.
- International Telecommunication Union. P. 862: Perceptual evaluation of speech quality (PESQ), an objective method for end-toend speech quality assessment of narrowband telephone networks and speech codecs / International Telecommunication Union // ITU-T Recommendation. 2001. V. 862. P. 862.
- Klatt D. Prediction of perceived phonetic distance from critical-band spectra: A first step // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 1982. Institute of Electrical and Electronics Engineers. V. 7. P. 1278−1281.
- Kondo K. Subjective Quality Measurement of Speech: Signals and Communication Technology. Berlin, Heidelberg: Springer Berlin Heidelberg. 2012.
- Тупицин Г.С. Использование расстояния между мел-частотными кепстральными коэффициентами для оценки точности идентификации дикторов // Доклады 18-й Междунар. научно-технич. конф. «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань. 2015. P. 98−99.
- Boll S. Suppression of acoustic noise in speech using spectral subtraction // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1979. V. 27. № 2. P. 113−120.
- Plapous C., Marro C., Mauuary L., Scalart P. A two-step noise reduction technique // IEEE International Conference on Acoustics, Speech and Signal Processing. 2004. V. 1. P. 289−92.