Р.Д. Шувалов1, Е.А. Сидорова2
1 Новосибирский государственный университет (г. Новосибирск, Россия)
2 Институт систем информатики им. А.П. Ершова СО РАН (г. Новосибирск, Россия)
1 r.shuvalov@g.nsu.ru, 2 lsidorova@iis.nsk.su
Постановка проблемы. Задача разрешения кореференции заключается в выявлении в текстах упоминаний, относящихся к одному и тому же объекту действительности. Современные исследования в данной области опираются на аннотированные наборы данных, которые в большинстве своем содержат новостные тексты. Модели и методы, созданные на их основе, плохо переносятся на специализированные области знаний. Кроме того, для русского языка наблюдается дефицит данных для обучения в данной области.
Цель. Создать новый русскоязычный корпус текстов специализированной предметной области с разметкой кореференции.
Результаты. Разработаны методика автоматизации разметки кореференции в русскоязычных текстах ограниченной предметной области и аннотированный корпус статей, относящихся к области «Компьютерная лингвистика».
Практическая значимость. Предложенная методика может быть использована для автоматизации разметки кореференции в текстах узких предметных областей, а созданный корпус может применяться для обучения и оценки моделей разрешения кореференции для русского языка.
Шувалов Р.Д., Сидорова Е.А. HaRuCo: новый русскоязычный корпус научно-популярных текстов с разметкой кореференции // Системы высокой доступности. 2026. Т. 22. № 2. С. 83−88. DOI: https://doi.org/10.18127/j20729472-202602-07
- Падучева Е.В. Высказывание и его соотнесенность с действительностью. Изд. 5, испр. М.: URSS. 2008.
- Dobrovolskii V.A., Michurina M.A., Ivoylova A.M. RuCoCo: a new Russian corpus with coreference annotation. // Computational Linguistics and Intellectual Technologies. Proc. of the Int. Conference «Dialogue 2022». 2022. P. 141–149. DOI: 10.28995/2075-7182-2022-21-141-149
- Azerkovich I. Using Semantic Information for Coreference Resolution with Neural Networks in Russian // Analysis of Images, Social Networks and Texts. AIST 2019. Communications in Computer and Information Science. Cham: Springer International Publishing. 2020. V. 1086. P. 85–93.
- Toldova S., Roytberg A., Ladygina A., Vasilyeva M., Azerkovich I., Kurzukov M., Sim G., Gorshkov D., Ivanova A., Nedoluzhko A., Grishina Y. Ru-eval-2014: Evaluating anaphora and coreference resolution for russian. Computational linguistics and intellectual technologies. Proc. of the Int. Conference «Dialogue 2014». 2014. P. 681–694.
- Budnikov A.E., Toldova S.Yu., Zvereva D.S., Maximova D.M., Ionov M.I. Ru-eval-2019: Evaluating anaphora and coreference resolution for russian // Computational Linguistics and Intellectual Technologies – Supplementary Volume. 2019.
- Овчинникова К.А., Иванов А.И., Сидорова Е.А. Автоматизация построения терминологического ядра онтологии по компьютерной лингвистике на основе корпуса текстов // Системная информатика. 2023. № 23. С. 13–32.
- Nghia T. Le, Ritter A. Are Large Language Models Robust Coreference Resolvers? // First Conference on Language Modeling (COLM-2024). 2024.
- Moosavi N.S., Strube M. Which coreference evaluation metric do you trust? А proposal for a link-based entity aware metric // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. V. 1. P. 632–642.

