Разработка метода оценки точности распознавания аудиосигнала с помощью нейросети для больших объемов данных

350 руб

Журнал «Динамика сложных систем - XXI век» №2 за 2020 г.

Статья в номере:

DOI: 004.032.26

УДК: 10.18127/j19997493-202002-07

Ключевые слова: Нейронные сети большие данные метрики качества расстояние Левенштейна распознавание речи фонемы

Авторы:

Б.С. Горячкин − к.т.н., доцент,

кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана

E-mail: bsgor@mail.ru

Б.И. Багавиев − магистрант,

кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана

E-mail: buba1219@yandex.ru

Аннотация:

Постановка проблемы. Одной из основных проблем использования человеком компьютера является эффективность различных интерфейсов взаимодействия, которые могут быть подразделены на визуальный (посредством экрана), звуковой (через динамики), тактильный (через пальцы рук). При использовании тактильного интерфейса (в частности, ввод данных в компьютер) требуется совершить ряд односложных, но рутинных действий. При этом возникают определенные неудобства на фоне низкой производительности. Решением этой проблемы может стать альтернативный ввод данных, например, голосовой. Однако данный способ требует промежуточной предобработки данных, которая может быть осуществлена с помощью методов распознавания речи, что, в свою очередь, требует адекватной точности распознавания аудиосигнала.

Цель. Разработать метод распознавания речи человека для облегчения ввода информации в компьютер, используя нейронную сеть, и оценить его точность с помощью стандартной и разработанной в процессе исследования метрики.

Результаты. Показаны преимущества и недостатки разработанного метода распознавания речи человека в сравнении с классическим способом печати на клавиатуре. Представлен алгоритм распознавания речи, реализованный посредством вывода данных в консоль или текстовый файл. На основании анализа разработанной метрики оценки качества преобразованных данных показана ее эффективность, особенно для больших объемов данных.

Практическая значимость. Разработанный модуль распознавания речи может быть использован в различных ситуациях при работе с компьютером: как при вводе данных, так и для вызова системных команд операционной системы.

Страницы: 63-70

Список источников

Распознавание речи. Национальная библиотека им. Н. Э. Баумана Bauman National Library [Электронный ресурс] − Режим доступа: https://ru.bmstu.wiki/%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0% B0% D0%BD%D0%B8%D0%B5_%D1%80%D0%B5%D1%87%D0%B8.
Открытые проблемы в области распознавания речи. Яндекс [Электронный ресурс] – Режим доступа: https://habr.com/ru/company/yandex/blog/337572/.
Документация Google Speech_To_Text API [Электронный ресурс] – Режим доступа: https://cloud.google.com/speech-totext-hl=ru.
Цыбульский А.С. Использование машинного обучения для распознавания речи // РЭУ им. Г.В. Плеханова. Международный студенческий научный вестник. 2017. № 6. 25 с.
Задача о редакционном расстоянии, алгоритм Вагнера−Фишера // Университет ИТМО [Электронный ресурс] – Режим доступа: https://neerc.ifmo.ru/wiki/index.php-title=%D0%97%D0%B0%D0%B
Titouan Parcollet, Mirco Ravanelli, Mohamed Morchid, Georges Linarès, Renato De Mori1. Speech Recognition with Quaternion Neural Networks. 2018. 35 с.
Карахтанов Д.С. Программная реализация алгоритма Левенштейна для устранения опечаток в записях // Молодой ученый. 2010. № 8(19). Т. 1. С. 158−162. / URL: https://moluch.ru/archive/19/1966/
Создание модели нейронной сети глубокого обучения с использованием Flask, Keras, TensorFlow в Python [Электронный ресурс] – Режим доступа: https://mc.ai/deploy-your-first-deep-learning-neural-network-model-using-flask-keras-tensorflow-inpython.

Дата поступления: 5 мая 2020 г.