Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов

500 руб

Журнал «Системы высокой доступности» №1 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j20729472-202601-15

УДК: 004.92

Ключевые слова: Семантическая близость научные тексты тематическая сегментация языковые модели классификация текста векторизация текста кластеризация документов

Авторы:

М.С. Гаврилов1

1 Институт проблем управленияим. В.А. Трапезникова РАН (Москва, Россия)

1 cobraj@yandex.ru

Аннотация:

Постановка проблемы. Эффективный анализ научных текстов (сравнение, поиск и кластеризация) требует учета не только общего содержания, но и внутренней тематической структуры. Автоматическая сегментация текста на смысловые блоки и использование этой структуры для оценки семантической близости представляют собой сложную и актуальную научно-техническую проблему.

Цель. Разработать и провести экспериментальную оценку алгоритма, который повышает качество анализа научных текстов за счет их декомпозиции на категорированные фрагменты и последующего многомерного сравнения.

Результаты. Разработан комбинированный алгоритм, объединяющий структурную и тематическую сегментацию с использованием дообученной языковой модели SciRus-tiny3. Отмечено, что эксперименты на специализированных датасетах подтвердили, что предложенный подход превосходит по качеству кластеризации анализ полных текстов или отдельных предложений. Показано, что метод позволяет не только вычислять общую близость документов, но и проводить их детальное сравнение по отдельным аспектам.

Практическая значимость. Разработанный алгоритм может быть использован для создания более точных и интерпретируемых систем информационного поиска, анализа научных ландшафтов, экспертизы текстов и рекомендательных сервисов в научной сфере, где необходимо учитывать внутреннюю структуру документов.

Страницы: 76-80

Для цитирования

Гаврилов М.С. Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов // Системы высокой доступности. 2026. Т. 22. № 1. С. 76−80. DOI: https://doi.org/10.18127/ j20729472-202601-15

Список источников

Wang J., Dong Y. Measurement of text similarity: a survey. Information. 2020. V. 11. № 9. P. 421.
Govindaraju V., Ramanathan K. Similar document search andrecommendation. Journal of Emerging Technologies in Web Intelligence. 2012. V. 4. № 1. P. 84–93.
Caracciolo C., de Rijke M. Generating and retrieving text segments for focused access to scientific documents. Advances in Information Retrieval: 28th European Conference on IR Research, ECIR 2006. London, UK. April 10–12. 2006. P. 350–361.
Wan S., Lan Y., Guo J., Xu J., Pang L., Cheng X. A deep architecture for semantic matching with multiple positional sentence representations. Proceedings of the AAAI Conference on Artificial Intelligence. 2016. V. 30. № 1. https://doi.org/10.1609/aaai.v30i1.10342
Чернобаев И., Суркова А. Обзор методов тематической сегментации текстовых данных // Информационные системы и технологии ИСТ-2018. 2018. С. 1079–1083.
Мишенин А. Тематическая сегментация семантически однородных документов // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2011. № 3. С. 127–133.
SciRus-tiny: model to obtain embeddings of scientific texts in russian and english. URL: https://huggingface.co/mlsa-iai-msu-lab/sci-rus-tiny (дата обращения 22.04.2025).
Liu et al. DeepSeek-V3 technical report. arXiv:2412.19437. 2024. https://doi.org/10.48550/arXiv. 2412.19437

Дата поступления: 24.02.2026

Одобрена после рецензирования: 26.02.2026

Принята к публикации: 10.03.2026