500 руб
Журнал «Системы высокой доступности» №1 за 2026 г.
Статья в номере:
Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j20729472-202601-15
УДК: 004.92
Авторы:

М.С. Гаврилов1

1 Институт проблем управленияим. В.А. Трапезникова РАН (Москва, Россия)

1 cobraj@yandex.ru

Аннотация:

Постановка проблемы. Эффективный анализ научных текстов (сравнение, поиск и кластеризация) требует учета не только общего содержания, но и внутренней тематической структуры. Автоматическая сегментация текста на смысловые блоки и использование этой структуры для оценки семантической близости представляют собой сложную и актуальную научно-техническую проблему.

Цель. Разработать и провести экспериментальную оценку алгоритма, который повышает качество анализа научных текстов за счет их декомпозиции на категорированные фрагменты и последующего многомерного сравнения.

Результаты. Разработан комбинированный алгоритм, объединяющий структурную и тематическую сегментацию с использованием дообученной языковой модели SciRus-tiny3. Отмечено, что эксперименты на специализированных датасетах подтвердили, что предложенный подход превосходит по качеству кластеризации анализ полных текстов или отдельных предложений. Показано, что метод позволяет не только вычислять общую близость документов, но и проводить их детальное сравнение по отдельным аспектам.

Практическая значимость. Разработанный алгоритм может быть использован для создания более точных и интерпретируемых систем информационного поиска, анализа научных ландшафтов, экспертизы текстов и рекомендательных сервисов в научной сфере, где необходимо учитывать внутреннюю структуру документов.

Страницы: 76-80
Для цитирования

Гаврилов М.С. Использование предварительной сегментации для повышения детальности измерения семантической близости научных текстов // Системы высокой доступности. 2026. Т. 22. № 1. С. 76−80. DOI: https://doi.org/10.18127/ j20729472-202601-15

Список источников
  1. Wang J., Dong Y. Measurement of text similarity: a survey. Information. 2020. V. 11. № 9. P. 421.
  2. Govindaraju V., Ramanathan K. Similar document search andrecommendation. Journal of Emerging Technologies in Web Intelligence. 2012. V. 4. № 1. P. 84–93.
  3. Caracciolo C., de Rijke M. Generating and retrieving text segments for focused access to scientific documents. Advances in Information Retrieval: 28th European Conference on IR Research, ECIR 2006. London, UK. April 10–12. 2006. P. 350–361.
  4. Wan S., Lan Y., Guo J., Xu J., Pang L., Cheng X. A deep architecture for semantic matching with multiple positional sentence representations. Proceedings of the AAAI Conference on Artificial Intelligence. 2016. V. 30. № 1. https://doi.org/10.1609/aaai.v30i1.10342
  5. Чернобаев И., Суркова А. Обзор методов тематической сегментации текстовых данных // Информационные системы и технологии ИСТ-2018. 2018. С. 1079–1083.
  6. Мишенин А. Тематическая сегментация семантически однородных документов // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2011. № 3. С. 127–133.
  7. SciRus-tiny: model to obtain embeddings of scientific texts in russian and english. URL: https://huggingface.co/mlsa-iai-msu-lab/sci-rus-tiny (дата обращения 22.04.2025).
  8. Liu et al. DeepSeek-V3 technical report. arXiv:2412.19437. 2024. https://doi.org/10.48550/arXiv. 2412.19437
Дата поступления: 24.02.2026
Одобрена после рецензирования: 26.02.2026
Принята к публикации: 10.03.2026