350 руб
Журнал «Информационно-измерительные и управляющие системы» №7 за 2010 г.
Статья в номере:
Алгоритм нормализации и онтологической кластеризации текстов
Авторы:
П. П. Кокорин - мл. научн. сотр. Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН). E-mail: kokorin@list.ru Боумедин Шаннаг - аспирант Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН) Е. В. Щелкунова - студентка Санкт-Петербургского Государственного Политехнического Университета. E-mail: elenaschelkunova@yandex.ru
Аннотация:
Предложен подход к тематической кластеризации текстовых данных, представленных в различных форматах. Суть подхода заключается в приведении текстов к нормализованному формату (TNF, текст в нормальной форме). Текст в нормальной форме не содержит специфических свойств лингвистического анализа (пунктуация, грамматика, синтаксис и прагматика текстов). Предложения нормализованного текста состоят из слов в нормальной (базовой) форме, из текста исключены малоинформативных слов (стоп-слова). В предлагаемом подходе текст в нормальной форме используется для построения понятийной иерархии текстов, являющейся графом связанных понятий текста. Показаны возможные области применения данного подхода на примере кластеризации научных тематик, музейных систем, системы обработки новостных сообщений и кластеризация текстовых данных. Также указаны ограничения применимости подхода. Приведены описания и показана эффективность предложенных методов тематической кластеризации текстовых материалов.
Страницы: 60-63
Список источников
  1. Александров В. В., Арсентьева А. В. Структурный анализ диалога. Л.: ЛНИВЦ АН СССР. 1983.
  2. Александров В. В., Андреева Н. А., Кулешов С. В. Методы построения информационно-логистических систем // СПб., 2005.
  3. Кокорин П. П. Семиология и понятийная кластеризация для каталогизации текстов // Информационно-измерительные и управляющие системы. 2008. Т. 6. № 10. С. 62-66.