Н.Д. Тодосиев1, Г.И. Афанасьев2, В.Б. Тимофеев3, Ю.Е. Гапанюк4
1–4 МГТУ им. Н.Э. Баумана (Москва, Россия)
1 todosievnik@gmail.ru, 2 gaipcs@bmstu.ru, 3 vbtimofeev@yandex.ru, 4 gapyu@bmstu.ru
Постановка проблемы. Существующие оценки семантического сходства сравнивают предложения лексически, а не семантически, поэтому они плохо подходят для русского языка. В контексте задач генерации текста на русском языке эта проблема встает особо остро. Данная статья посвящена разработке новой оценки, максимально приближенной к человеческой оценке и наиболее полно выполняющей задачу оценки семантического сходства на русском языке.
Цель. Разработать новую автоматическую оценку семантического сходства двух предложений для задачи генерации текстов на русском языке.
Результаты. Предложена новая оценка на основе существующих трансформеров предложений sentence-transformer, обученных сначала на понимание русского языка, а потом на понимание русской семантики. Установлено, что новая оценка семантического сходства между предложениями оценивает сходство между двумя предложениями ближе всего к человеческой оценке.
Практическая значимость. Результирующая оценка имеет практическую ценность для разработчиков вопросно-ответных и других систем, использующих генерацию текста на русском языке. Модель оценки планируется использовать в задаче генерации текстов на русском языке.
Тодосиев Н.Д., Афанасьев Г.И., Тимофеев В.Б., Гапанюк Ю.Е. Оценка семантического сходства между предложениями на русском языке с помощью трансформеров предложений // Нейрокомпьютеры: разработка, применение. 2025. Т. 27. № 5. С. 17–22. DOI: https://doi.org/10.18127/j19998554-202505-02
- OpenAI. ChatGPT: Optimizing language models for dialogue [Электронный ресурс] // OpenAI. 2022. URL: https://openai.com/ blog/chatgpt/ (дата обращения: 11.02.2024).
- Bang Y. et al. A multitask, multilingual, multimodal evaluation of ChatGPT on reasoning, hallucination, and interactivity // arXiv [cs.CL]. 2023.
- Papineni K. et al. BLEU: A method for automatic evaluation of machine translation [Электронный ресурс] / URL: https://aclanthology.org/ P02-1040.pdf (дата обращения: 11.02.2024).
- Reiter E. A structured review of the validity of BLEU // Computational Linguistics. 2018. V. 44. № 3. P. 393–401.
- Post M. A call for clarity in reporting BLEU scores // arXiv [cs.CL]. 2018.
- Callison-Burch C., Osborne M., Koehn P. Re-evaluating the role of BLEU in machine translation research [Электронный ресурс] / URL: https://aclanthology.org/E06-1032.pdf (дата обращения: 22.01.2024).
- Lin C.-Y. ROUGE: A package for automatic evaluation of summaries // Proceedings of the Workshop on Text Summarization Branches Out. Barcelona, Spain. 2004. P. 74–81.
- Banerjee S., Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments // Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Ann Arbor, Michigan. 2005. P. 65–72.
- Mikolov T. et al. Efficient estimation of word representations in vector space // arXiv [cs.CL]. 2013.
- Zhang T. et al. BERTScore: Evaluating text generation with BERT // arXiv [cs.CL]. 2019.
- Reimers N., Gurevych I. Sentence-BERT: Sentence embeddings using Siamese BERT-networks // arXiv [cs.CL]. 2019.
- Reimers N., Gurevych I. Making monolingual sentence embeddings multilingual using knowledge distillation // arXiv [cs.CL]. 2020.
- Conneau A. et al. Unsupervised cross-lingual representation learning at scale // arXiv [cs.CL]. 2019.
- Common crawl [Электронный ресурс] / URL: https://commoncrawl.org/ (дата обращения: 17.02.2024).
- Cer D. et al. SemEval-2017 Task 1: Semantic textual similarity multilingual and crosslingual focused evaluation // Proceedings of the 11th International Workshop on Semantic Evaluation. 2017.
- Ziganshina L.E. et al. Assessing human post-editing efforts to compare the performance of three machine translation engines for English to Russian translation of cochrane plain language health information: results of a randomised comparison // Informatics. MDPI. 2021. V. 8. P. 9.
- Shavrina T. et al. RussianSuperGLUE: A Russian language understanding evaluation benchmark // arXiv [cs.CL]. 2020.
- Зобнин А.И., Носырев Г.В. Морфологический анализатор MyStem 3.0 // Труды Института русского языка им. В.В. Виноградова. 2015. Т. 6. С. 300–310.

