М.С. Гаврилов1
1 Институт проблем управленияим. В.А. Трапезникова РАН (Москва, Россия)
1 cobraj@yandex.ru
Постановка проблемы. Эффективный анализ научных текстов (сравнение, поиск и кластеризация) требует учета не только общего содержания, но и внутренней тематической структуры. Автоматическая сегментация текста на смысловые блоки и использование этой структуры для оценки семантической близости представляют собой сложную и актуальную научно-техническую проблему.
Цель. Разработать и провести экспериментальную оценку алгоритма, который повышает качество анализа научных текстов за счет их декомпозиции на категорированные фрагменты и последующего многомерного сравнения.
Результаты. Разработан комбинированный алгоритм, объединяющий структурную и тематическую сегментацию с использованием дообученной языковой модели SciRus-tiny3. Отмечено, что эксперименты на специализированных датасетах подтвердили, что предложенный подход превосходит по качеству кластеризации анализ полных текстов или отдельных предложений. Показано, что метод позволяет не только вычислять общую близость документов, но и проводить их детальное сравнение по отдельным аспектам.
Практическая значимость. Разработанный алгоритм может быть использован для создания более точных и интерпретируемых систем информационного поиска, анализа научных ландшафтов, экспертизы текстов и рекомендательных сервисов в научной сфере, где необходимо учитывать внутреннюю структуру документов.
Гаврилов М.С. Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов // Системы высокой доступности. 2026. Т. 22. № 1. С. 76−80. DOI: https://doi.org/10.18127/ j20729472-202601-15
- Wang J., Dong Y. Measurement of text similarity: a survey. Information. 2020. V. 11. № 9. P. 421.
- Govindaraju V., Ramanathan K. Similar document search andrecommendation. Journal of Emerging Technologies in Web Intelligence. 2012. V. 4. № 1. P. 84–93.
- Caracciolo C., de Rijke M. Generating and retrieving text segments for focused access to scientific documents. Advances in Information Retrieval: 28th European Conference on IR Research, ECIR 2006. London, UK. April 10–12. 2006. P. 350–361.
- Wan S., Lan Y., Guo J., Xu J., Pang L., Cheng X. A deep architecture for semantic matching with multiple positional sentence representations. Proceedings of the AAAI Conference on Artificial Intelligence. 2016. V. 30. № 1. https://doi.org/10.1609/aaai.v30i1.10342
- Чернобаев И., Суркова А. Обзор методов тематической сегментации текстовых данных // Информационные системы и технологии ИСТ-2018. 2018. С. 1079–1083.
- Мишенин А. Тематическая сегментация семантически однородных документов // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2011. № 3. С. 127–133.
- SciRus-tiny: model to obtain embeddings of scientific texts in russian and english. URL: https://huggingface.co/mlsa-iai-msu-lab/sci-rus-tiny (дата обращения 22.04.2025).
- Liu et al. DeepSeek-V3 technical report. arXiv:2412.19437. 2024. https://doi.org/10.48550/arXiv. 2412.19437

