С.А. Красоткин1
1 МФТИ (г. Долгопрудный, Россия)
1 Институт проблем управленияим. В.А. Трапезникова РАН (Москва, Россия)
1 krasotkin.sa@phystech.edu
Постановка проблемы. Рассмотрена формализация задачи извлечения структуры. Задается набор размеченных документов. Вводятся обозначения: D = { (dᵢ, yᵢ) }ᵢ₌₁ᵐ, dᵢ = { tᵢ, xᵢ₁, mᵢ₁, …, xᵢₙ, mᵢₙ }, yᵢ = ( yᵢ₁, …, yᵢₙ ), f : D → Y. Надо построить отображение f, где D – пространство документов, Y – пространство последовательностей меток токенов, максимизирующее символьно-ориентированную F1-меру. Практически решается композиция трёх отображений: g₁ : t → B, g₂ : B → R, g₃ : R → C,
f = g₃ ∘ g₂ ∘ g₁, где B – область библиографии, R – множество сырых сносок, C – множество структурированных записей. Оценка проводится по F1 на уровне символов/токенов.
Цель. Сравнить применимость доступных подходов на разнородных корпусах: промышленного пайплайна RedUpAPI, специализированного инструмента GROBID и обобщённого LLM‑подхода.
Результаты. Представлен сравнительный анализ двух подходов к извлечению и группированию библиографических записей из текста научных статей: промышленного пайплайна RedUpAPI и специализированного инструмента GROBID. Рассмотрены ограничения и типичные ошибки этих подходов на разнородных корпусах, оформленных по различным стандартам (APA, MLA, Chicago, IEEE и др.), а также в соответствии с российскими ГОСТами.
Практическая значимость. На основании проведенного исследования можно осуществлять поддержку «обратного библиографического списка» и интеграцию в издательские и репозитории для регулярного автоматического обновления ссылок.
Красоткин С.А. Проблемы извлечения библиографии из научных публикаций // Системы высокой доступности. 2026. Т. 22.
№ 1. С. 17−20. DOI: https://doi.org/10.18127/j20729472-202601-03
- Kopanichuk I. et al. Structure Extractor: Multilingual Extraction of Sections from Scientific Document. 37th Conference of Open Innovations Association (FRUCT). IEEE. 2025. Р. 122–128.
- Grobid End-to-End Benchmarking Datasets. Zenodo: Dataset. Electronic data. URL: https://zenodo.org/records/7708580 (дата обращения: 10.03.2026).
- Кирьянов П.А., Латипов А.Р., Блашкун М.Р. Использование инструмента GROBID для извлечения структурных элементов русскоязычных научных публикаций // Труды 66-й Всерос. науч. конф. МФТИ (Москва, 2024). М.: МФт. 2024. С. 71–72.
- Полевой В.Г. и др. Методические рекомендации для разработки и представления к публикации научной статьи // Научные и образовательные проблемы гражданской защиты. 2016. № 1(28). С. 94–102.
- Romary L., Lopez P. Grobid-information extraction from scientific publications. ERCIM News. 2015. V. 100.
- Besagni D., Belaïd A., Benet N. A segmentation method for bibliographic references by contextual tagging of fields. Seventh International Conference on Document Analysis and Recognition. 2003. Proceedings. IEEE. 2003. P. 384–388.
- Ohta M., Inoue R., Takasu A. Empirical evaluation of crf-based bibliography extraction from.
- Krüger F., Schindler D. A literature review on methods for the extraction of usage statements of software and data. Computing in Science & Engineering. 2019. V. 22. № 1. P. 26–38.
- Marini P. et al. Data gatherer: LLM-powered dataset reference extraction from scientific literature. Proceedings of the Fifth Workshop on Scholarly Document Processing (SDP 2025). 2025. P. 114–123.

