Проблемы извлечения библиографии из научных публикаций

500 руб

Журнал «Системы высокой доступности» №1 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j20729472-202601-03

УДК: 004.89

Ключевые слова: Извлечение библиографии научные публикации машинное обучение регулярные выражения наукометрия обработка естественного языка базы цитирования GROBID большие языковые модели (LLM) форматы библиографического оформления

Авторы:

С.А. Красоткин1

1 МФТИ (г. Долгопрудный, Россия)

1 Институт проблем управленияим. В.А. Трапезникова РАН (Москва, Россия)

1 krasotkin.sa@phystech.edu

Аннотация:

Постановка проблемы. Рассмотрена формализация задачи извлечения структуры. Задается набор размеченных документов. Вводятся обозначения: D = { (dᵢ, yᵢ) }ᵢ₌₁ᵐ, dᵢ = { tᵢ, xᵢ₁, mᵢ₁, …, xᵢₙ, mᵢₙ }, yᵢ = ( yᵢ₁, …, yᵢₙ ), f : D → Y. Надо построить отображение f, где D – пространство документов, Y – пространство последовательностей меток токенов, максимизирующее символьно-ориентированную F1-меру. Практически решается композиция трёх отображений: g₁ : t → B, g₂ : B → R, g₃ : R → C,
f = g₃ ∘ g₂ ∘ g₁, где B – область библиографии, R – множество сырых сносок, C – множество структурированных записей. Оценка проводится по F1 на уровне символов/токенов.

Цель. Сравнить применимость доступных подходов на разнородных корпусах: промышленного пайплайна RedUpAPI, специализированного инструмента GROBID и обобщённого LLM‑подхода.

Результаты. Представлен сравнительный анализ двух подходов к извлечению и группированию библиографических записей из текста научных статей: промышленного пайплайна RedUpAPI и специализированного инструмента GROBID. Рассмотрены ограничения и типичные ошибки этих подходов на разнородных корпусах, оформленных по различным стандартам (APA, MLA, Chicago, IEEE и др.), а также в соответствии с российскими ГОСТами.

Практическая значимость. На основании проведенного исследования можно осуществлять поддержку «обратного библиографического списка» и интеграцию в издательские и репозитории для регулярного автоматического обновления ссылок.

Страницы: 17-20

Для цитирования

Красоткин С.А. Проблемы извлечения библиографии из научных публикаций // Системы высокой доступности. 2026. Т. 22.
№ 1. С. 17−20. DOI: https://doi.org/10.18127/j20729472-202601-03

Список источников

Kopanichuk I. et al. Structure Extractor: Multilingual Extraction of Sections from Scientific Document. 37th Conference of Open Innovations Association (FRUCT). IEEE. 2025. Р. 122–128.
Grobid End-to-End Benchmarking Datasets. Zenodo: Dataset. Electronic data. URL: https://zenodo.org/records/7708580 (дата обращения: 10.03.2026).
Кирьянов П.А., Латипов А.Р., Блашкун М.Р. Использование инструмента GROBID для извлечения структурных элементов русскоязычных научных публикаций // Труды 66-й Всерос. науч. конф. МФТИ (Москва, 2024). М.: МФт. 2024. С. 71–72.
Полевой В.Г. и др. Методические рекомендации для разработки и представления к публикации научной статьи // Научные и образовательные проблемы гражданской защиты. 2016. № 1(28). С. 94–102.
Romary L., Lopez P. Grobid-information extraction from scientific publications. ERCIM News. 2015. V. 100.
Besagni D., Belaïd A., Benet N. A segmentation method for bibliographic references by contextual tagging of fields. Seventh International Conference on Document Analysis and Recognition. 2003. Proceedings. IEEE. 2003. P. 384–388.
Ohta M., Inoue R., Takasu A. Empirical evaluation of crf-based bibliography extraction from.
Krüger F., Schindler D. A literature review on methods for the extraction of usage statements of software and data. Computing in Science & Engineering. 2019. V. 22. № 1. P. 26–38.
Marini P. et al. Data gatherer: LLM-powered dataset reference extraction from scientific literature. Proceedings of the Fifth Workshop on Scholarly Document Processing (SDP 2025). 2025. P. 114–123.

Дата поступления: 24.02.2026

Одобрена после рецензирования: 26.02.2026

Принята к публикации: 10.03.2026