500 руб
Журнал «Системы высокой доступности» №2 за 2026 г.
Статья в номере:
HaRuCo: новый русскоязычный корпус научно-популярных текстов с разметкой кореференции
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j20729472-202602-07
УДК: 004.85
Авторы:

Р.Д. Шувалов1, Е.А. Сидорова2

1 Новосибирский государственный университет (г. Новосибирск, Россия)
2 Институт систем информатики им. А.П. Ершова СО РАН (г. Новосибирск, Россия)
1 r.shuvalov@g.nsu.ru, 2 lsidorova@iis.nsk.su

Аннотация:

Постановка проблемы. Задача разрешения кореференции заключается в выявлении в текстах упоминаний, относящихся к одному и тому же объекту действительности. Современные исследования в данной области опираются на аннотированные наборы данных, которые в большинстве своем содержат новостные тексты. Модели и методы, созданные на их основе, плохо переносятся на специализированные области знаний. Кроме того, для русского языка наблюдается дефицит данных для обучения в данной области.

Цель. Создать новый русскоязычный корпус текстов специализированной предметной области с разметкой кореференции.

Результаты. Разработаны методика автоматизации разметки кореференции в русскоязычных текстах ограниченной предметной области и аннотированный корпус статей, относящихся к области «Компьютерная лингвистика».

Практическая значимость. Предложенная методика может быть использована для автоматизации разметки кореференции в текстах узких предметных областей, а созданный корпус может применяться для обучения и оценки моделей разрешения кореференции для русского языка.

Страницы: 83-88
Для цитирования

Шувалов Р.Д., Сидорова Е.А. HaRuCo: новый русскоязычный корпус научно-популярных текстов с разметкой кореференции // Системы высокой доступности. 2026. Т. 22. № 2. С. 83−88. DOI: https://doi.org/10.18127/j20729472-202602-07

Список источников
  1. Падучева Е.В. Высказывание и его соотнесенность с действительностью. Изд. 5, испр. М.: URSS. 2008.
  2. Dobrovolskii V.A., Michurina M.A., Ivoylova A.M. RuCoCo: a new Russian corpus with coreference annotation. // Computational Linguistics and Intellectual Technologies. Proc. of the Int. Conference «Dialogue 2022». 2022. P. 141–149. DOI: 10.28995/2075-7182-2022-21-141-149
  3. Azerkovich I. Using Semantic Information for Coreference Resolution with Neural Networks in Russian // Analysis of Images, Social Networks and Texts. AIST 2019. Communications in Computer and Information Science. Cham: Springer International Publishing. 2020. V. 1086. P. 85–93.
  4. Toldova S., Roytberg A., Ladygina A., Vasilyeva M., Azerkovich I., Kurzukov M., Sim G., Gorshkov D., Ivanova A., Nedoluzhko A., Grishina Y. Ru-eval-2014: Evaluating anaphora and coreference resolution for russian. Computational linguistics and intellectual technologies. Proc. of the Int. Conference «Dialogue 2014». 2014. P. 681–694.
  5. Budnikov A.E., Toldova S.Yu., Zvereva D.S., Maximova D.M., Ionov M.I. Ru-eval-2019: Evaluating anaphora and coreference resolution for russian // Computational Linguistics and Intellectual Technologies – Supplementary Volume. 2019.
  6. Овчинникова К.А., Иванов А.И., Сидорова Е.А. Автоматизация построения терминологического ядра онтологии по компьютерной лингвистике на основе корпуса текстов // Системная информатика. 2023. № 23. С. 13–32.
  7. Nghia T. Le, Ritter A. Are Large Language Models Robust Coreference Resolvers? // First Conference on Language Modeling (COLM-2024). 2024.
  8. Moosavi N.S., Strube M. Which coreference evaluation metric do you trust? А proposal for a link-based entity aware metric // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. V. 1. P. 632–642.
Дата поступления: 11.03.2026
Одобрена после рецензирования: 23.03.2026
Принята к публикации: 06.04.2026