А.В. Козина, Ю.С. Белов
Калужский филиал МГТУ им. Н.Э. Баумана (г. Калуга, Россия)
Постановка проблемы. Оценка качества машинного перевода текста позволяет определить, можно ли использовать переведенный текст, не прибегая к его постредактированию. Поскольку ручная оценка – дорогостоящий и длительный процесс, появляется необходимость в его автоматизации.
Цель. Предложить новую систему оценки качества перевода текста, результаты работы которой близки к человеческим суждениям. Результаты. Предложена система оценки качества на основе ансамблевых методов машинного обучения. В качестве признаков для обучения использовались лингвистические функции. В исследованиях участвовали несколько систем машинного перевода. По результатам работы лучше всего проявил себя метод дополнительных деревьев. Кроме того, среди рассматриваемых систем перевода лучшие результаты достигаются при использовании системы Google.
Практическая значимость. Модель успешно проявила себя в ходе тестирования. Полученные оценочные баллы близки к человеческим суждениям, что позволяет говорить о высокой эффективности системы и возможности ее использования для дальнейших исследований.
Козина А.В., Белов Ю.С. Оценка качества машинного перевода на основе ансамблевых методов машинного обучения // Наукоемкие технологии. 2021. Т. 22. № 2. С. 52−58. DOI: https://doi.org/10.18127/j19998465-202102-06
- Blatz J., Fitzgerald E., Foster G. et al. Confidence estimation for machine translation. Proc. of the 20th international conference on computational linguistics. 2004. Р. 315–321.
- Quirk C. Training a Sentence-Level Machine Translation Confidence Measure. InLREC. 2004. P. 825–828.
- Xiong D., Zhang M., Li H. Error detection for statistical machine translation using linguistic features. Proc. of the 48th annual meeting of the Association for Computational Linguistics. 2010. Р. 604–611.
- Козина А.В., Черепков Е.А., Белов Ю.С. Автоматические метрики оценки качества машинного перевода // Системный администратор. 2019. № 11(204). С. 84–87.
- Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4(47). С. 2–8.
- Андреева О.В., Багиров М.Б., Данькина А.А. Интеллектуальный анализ данных на базе Stanford CoreNLP для определения частей речи в русском языке // Системы и средства информатики. 2018. Т. 28. № 2. С. 145–153.
- Денисова Д. С. Современные системы машинного перевода // Статический машинный перевод. Синергия наук. 2018. № 19. С. 1425–1434.
- Синяев И.Ф., Шестернева О.В. Исследование bagging подхода при построении ансамбля моделей для повышения точности классификации // Актуальные проблемы авиации и космонавтики. 2014. № 10. С. 300.
- Гуда С.А., Алгасов А.С. Технологии машинного обучения для анализа геометрии молекул // Вестник РГУПС. 2019. № 2(74). С. 84–89.
- Тарасов К.Г. Сравнение двух алгоритмов машинного обучения: Random Forest и Gradient Boosted Decision Trees // Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов им. Е.В. Арменского. 2016. С. 80–81.