Ю.И. Бутенко – к.т.н., доцент, кафедра «Романо-германские языки»,
Московский государственный технический университет им. Н.Э. Баумана
E-mail: iuliiabutenko2015@yandex.ru
А.А. Коноплева – магистр,
Московский государственный технический университет им. Н.Э. Баумана
E-mail: istommi@icloud.com
Постановка проблемы. Автоматическое распознавания с использованием нейросетей письменной речи трактуется с позиций изменчивости шрифтов и очертаний букв: различной реализацией фонем, положением и характеристиками акустических приемников, изменениями параметров речи. Границы слова определяются в процессе распознавания с использованием нейронной сети посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. Необходимо выявить пороги распознания неосмысленных последовательностей, которые предполагается считать наиболее удачным количеством неосмысленных последовательностей, состоящих из трёх звуков – триграммы.
Цель. Разработать методологию распознавания триграмм, соответствующих типичному русскому слогу, с использованием нейросетевых технологий, позволяющую при распознавании речи предположить вероятностное прогнозирование различных звуков.
Результаты. Представлены результаты исследования возможности использования триграмм для повышения вероятности распознавания отдельных слов в потоке речи. Приведены параметры, характеризующие системы автоматического распознавания речи. Выявлен момент опознания слова как точки распознавания, начиная с которой эта последовательность сегментов ассоциируется с определенным словом. Установлено, что использование триграмм во время декодирования повышает вероятность качества распознавания речи, так как при делении на триграммы в составе слова большей длины выделяется в слог, оно является более произносимым и легко распознается. Приведены субъективные оценки частот русских триграмм. Отмечено, что легко произносимые триграммы распознаются с более высокой долей вероятности, а использование триграмм повышает качество распознавания речи.
Практическая значимость. С использованием нейросетевых технологий получены пороги распознания неосмысленных последовательностей, состоящих из трёх звуков – триграммы. Основываясь на исследовании трудности произношения русских триграмм с последующей оцифровкой показано, что легко произносимые триграммы распознаются с более высокой долей вероятности. Декодирование повышает вероятность качества распознавания речи, так как при делении на триграммы в составе слова большей длины оно выделяется в слог, является более произносимым и легко оцифровывается.
Бутенко Ю.И., Коноплева А.А. Методология использования нейросетевых технологий при распознавании триграмм. Нейрокомпьютеры: разработка, применение. 2020. Т. 22. № 1. С. 5–17. DOI: 10.18127/j19998554-202001-01.
- Боженкова Р.К., Боженкова Н.Л., Шаклсин В.М. Русский язык и культура речи: учебник. М.: ФЛИНТА: Наука. 2011. 608 с.
- Косарев Ю. А., Ли И. В., Ронжин А.Л., Скиданов Е.А., Savage J. Обзор методов понимания речи и текста // Труды СПИИРАН. 2002. Вып. 1. Т. 2. C.157-195.
- Бутенко Ю.И., Шостак И.В. Методологические аспекты распознавания речи на основе многомерной статистической теории // Нейрокомпьютеры: разработка, применение. 2018. № 2. С. 23-33.
- Волошин В.Г. Компьютерная лингвистика. Сумы: Университетская книга. 2004. 382 с.
- Сидняев Н.И., Храпов П.В. Нейросети и нейроматематика: учебное пособие (под ред. Н.И. Сидняева). М.: Изд-во. МГТУ им. Н.Э. Баумана. 2016. 83 с.
- Бутенко Ю.И. Использование нейронных сетей для обработки информации по распознаванию речи // Междунар. науч. конф. «Физико-математические проблемы создания новой техники». М. 2014. С. 62.
- Бондарев В.Н., Аде Ф.Г. Искусственный интеллект: Учеб. пособие для вузов. Севастополь: Изд-во СевНТУ. 2002. 615 с.
- Фрумкина Р.М., Василевич А.П., Герганов Е.Н. Субъективные оценки частот элементов текста как прогнозирующий фактор // Вероятностное прогнозирование в речи. Сборник статей. М.: Наука. 1971. С. 70-93.
- Фрумкина Р.М., Василевич А.П. Произносительная трудность буквосочетаний и её связь с порогами зрительного распознавания // Вероятностное прогнозирование в речи. Сборник статей. М.: Наука. 1971. С. 94-134.
- Сидняев Н.И. Нейронная биовозбудимость и построение функциональных схем искусственного нейрона // Нейрокомпьютеры: разработка, применение. 2012. №6. С. 24-28.
- Сидняев Н.И., Шафикова С.Э. Нечеткие сведения о точке // Сб. тезисов научно-практ. конф. «Современные проблемы математики и ее прикладные аспекты». 2013. С.61-63.
- Сидняев Н.И., Бутенко Ю.И., Гаража В.В. Статистическая оценка ассоциативной силы неосмысленных буквосочетаний //Теоретическая и прикладная лингвистика. 2019. №5(4). С.107-124.