М.Г. Кобук1, О.М. Атаева2
1-2 Московский университет имени С.Ю. Витте (Москва, Россия)
2 Федеральный исследовательский центр "Информатика и управление" РАН (Москва, Россия)
1 mikhail.kobuk@mail.ru, 2 oataeva@frccsc.ru
Постановка проблемы. Работа посвящена проблеме структуризации научных статей для формирования корпусов данных семантической экосистемы SciLibAIRU и переходу от документо-ориентированного представления данных к формату, пригодному для автоматизированного анализа и семантического поиска.
Цель. Исследовать оптимальный метод векторного нечёткого поиска по математическим текстам и осуществить его реализацию в сочетании с парсером математических LaTeX-текстов.
Результаты. Предложенный прототип векторной поисковой системы способен принимать на вход LaTeX-версии научных текстов и предоставлять интерфейс нечёткого поиска по текстовым фрагментам в библиотеке SciLibAIRU
Практическая значимость. Результаты исследования могут применяться для библиотечных и редакторских информационных систем.
Кобук М.Г., Атаева О.М. Методы семантической разметки и онтологического моделирования математических текстов в формате LaTeX // Системы высокой доступности. 2026. Т. 22. № 1. С. 90−94. DOI: https://doi.org/10.18127/j20729472-202601-18
- Hoftich M. TEX4ht: LATEX to Web Publishing. TUGboat. 2019. V. 40. № 1. Р. 76–81.
- Frankston C. et al. Using HTML Papers on arXiv: Why It’s Important, and How We Made It Happen. arXiv:2402.08954, 2024.
- Серебряков В.А., Галочкин М.П., Гончар Д.Р., Фуругян М.Г. Теория и реализация языков программирования. Изд. 2-е. М.: Изд-во МЗ-Пресс. 2006. 352 с.
- Хопкрофт Дж., Мотвани Р., Ульман Дж. Введение в теорию автоматов, языков и вычислений. М.: Вильямс. 2002. 528 с.
- Ахо А.В., Лам М.С., Сети Р., Ульман Дж.Д. Компиляторы: принципы, технологии и инструментарий. Изд .2-е. М.: Вильямс. 2008. 1184 с.
- Peters M., Neumann M, Ivyer M., Gardner M., Clark C., Lee L., Zettlemoyer L. Deep contextualized word representations. arXiv:1802.05365v2, 2018. DOI: arXiv:1802.05365
- Pennington J., Socher R., Manning C. GloVe: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. Р. 1532–1543. DOI: 10.3115/v1/D14-1162
- Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Vol. 2. Short Papers. Valencia, Spain, April 2017.
Р. 427–431. DOI: 10.18653/v1/E17-2068 - Feng F., Yang Y., Cer D., Arivazhagan N., Wang W. Language-agnostic BERT Sentence Embedding. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL). Dublin, Ireland. May 2022. Р. 878–891. DOI: 10.18653/v1/2022.acl-long.62
- Zmitrovich D. et al. A Family of Pretrained Transformer Language Models for Russian. Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). Torino, Italia. May 2024. P. 507–524. arXiv.2309.10931. DOI: 10.48550/arXiv.2309.10931
- Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2019» Moscow. May-June 2019. arXiv:1905.07213. DOI: 10.48550/arXiv.1905.07213
- Nikolich A., Puchkova A. Fine-tuning GPT-3 for Russian Text Summarization. arXiv preprint 2021. arXiv:2108.03502. DOI: 10.48550/arXiv.2108.03502
- Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems (NIPS 26). 2013. Р. 3111–3119. DOI: 10.5555/2999792.2999959
- Gerasimenko N., Vatolin A.. Ianina A., Vorontsov K. SciRus: Tiny and Powerful Multilingual Encoder for Scientific Texts. Doklady Mathematics. 2024. V. 110. № 1. P. S193–S202. DOI: 10.1134/S1064562424602178

