350 руб
Журнал «Информационно-измерительные и управляющие системы» №3 за 2017 г.
Статья в номере:
Подход к автоматизированному мониторингу тем на основе обнаружения событий в потоке текстовых документов
Авторы:
А.М. Андреев - к.т.н., доцент, кафедра «Компьютерные системы и сети», МГТУ им. Н.Э. Баумана E-mail: arkandreev@gmail.com Д.В. Березкин - к.т.н., доцент, кафедра «Компьютерные системы и сети», МГТУ им. Н.Э. Баумана E-mail: berezkind@bmstu.ru И.А. Козлов - магистр, мл. науч. сотрудник, научно-учебный комплекс «Информатика и системы управления», МГТУ им. Н.Э. Баумана E-mail: kozlovilya89@gmail.com
Аннотация:
Рассмотрен подход к решению задачи мониторинга тем на ос-нове обнаружения событий в потоке текстовых сообщений. Проанализированы существующие методы обнаружения событий, выявлены их преимущества и недостатки. Описана многокритериальная модель события, отражающая его основные аспекты и имеющая возможность гибкой настройки на различные предметные области. Предложен способ определения близости документа и события на основе бинарной классификации с помощью метода опорных векторов. Представлен метод обнаружения событий на основе инкрементальной кластеризации, обеспечивающий возможность на-стройки для выделения событий различного уровня локализации. Проведено экспериментальное сравнение качества работы предложенного метода при использовании различных наборов учитываемых аспектов события. Проанализированы полученные результаты. Показана целесообразность использования многокритериальной модели.
Страницы: 49-60
Список источников

 

  1. Ландэ Д.В., Фурашев В.Н., Брайчевский С.М., Григорьев А.Н. Основы моделирования и оценки электронных информационных потоков. Киев: Инжиниринг. 2006. 176 с.
  2. Андреев А.М., Березкин Д.В., Козлов И.А., Симаков К.В. Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов // Информатика и ее применения. 2013. Т. 7. № 3. С. 2-13.
  3. Андреев А.М., Березкин Д.В., Козлов И.А., Симаков К.В. Многокритериальный метод выявления нечетких дубликатов в потоке текстовых сообщений // Системы и средства информатики. 2015. Т. 25. № 1. С. 34-53.
  4. Allen J.F., Ferguson G. Actions and events in interval temporal logic // Journal of logic and computation. 1994. Т. 4. № 5. С. 531-579.
  5. Yang Y., Pierce T., Carbonell J. A study of retrospective and on-line event detection // Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM. 1998. С. 28-36.
  6. Raymond Y., Abdallah S. The Event Ontology. Режим доступа: http://motools.sourceforge.net/event/event.html (дата обращения 02.02.2017).
  7. Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Выявление новых событий из потока новостей // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог-2007». М.: 2007. С. 349-352.
  8. Aggarwal C.C., Subbian K. Event detection in social streams // Proceedings of the 2012 SIAM international conference on data mining. Society for Industrial and Applied Mathematics. 2012. С. 624-635.
  9. Yang Y., Zhang J., Carbonell J., Jin, C. Topic-conditioned novelty detection // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM. 2002. С. 688-693.
  10. Кондратьев М.Е. Анализ методов кластеризации новостного потока // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды VIII Всерос. науч. конф. (RCDL-2006). Ярославль. 2006. С. 108-114.
  11. Прищепа C.В. Обзор методов экстрагирования событий «из потока новостей» // Регистрация, хранение и обработка данных. 2015. Т. 17. № 4. С. 38-48.
  12. Zhao Q., Mitra P., Chen B. Temporal and information flow based event detection from social text streams //AAAI. 2007. Т. 7. С. 1501-1506.
  13. Добров Б.В., Павлов А.М. Исследование качества базовых методов кластеризации новостного потока в суточном временном окне // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XII Всерос. науч. конф. (RCDL-2010). Казань. 2010. С. 287-295.
  14. Солошенко А.Н., Орлова Ю.А., Розалиев В.Л. Автоматическое выделение сюжетов и тем из потока новостных сообщений // Изв. Волгоградского государственного технического университета. 2015. № 2 (157). С. 83-90.
  15. Li Z., Wang B., Li M., Ma W.Y. A probabilistic model for retrospective news event detection // Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. ACM. 2005. С. 106-113.
  16. Ahmed A., Ho Q., Eisenstein J., Xing E.P., Smola A.J., Teo C.H. Unified analysis of streaming news // Proceedings of the 20th international conference on World wide web. ACM. 2011. С. 267-276.
  17. Aggarwal C.C., Philip S.Y. On clustering massive text and categorical data streams // Knowledge and information systems. 2010. Т. 24. № 2. С. 171-196.
  18. Потемкин А.В., Бородащенко А.Ю. Алгоритм динамической кластеризации сообщений средств массовой информации сети интернет по сюжетным линиям // Human Progress. 2016. Т. 2. № 8. С. 1-9.
  19. How Sphinx relevance ranking works. Режим доступа: http://sphinxsearch.com/blog/2010/08/17/how-sphinx-relevance-ranking-works/ (дата обращения 02.02.2017).