Радиотехника
Издательство РАДИОТЕХНИКА

"Издательство Радиотехника":
научно-техническая литература.
Книги, журналы издательств ИПРЖР, РС-ПРЕСС, САЙНС-ПРЕСС


Тел.: +7 (495) 625-9241

::Журналы
::Книги
 

Улучшение алгоритма кластеризации новостного потока текстовых сообщений

Ключевые слова:

Ю.Е. Гапанюк – к.т.н., доцент, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: gapyu@bmstu.ru
С.В. Чернобровкин – аспирант, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: sergey.chernobrovkin@inbox.ru
М.П. Мялкин – аспирант, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: maxmyalkin@gmail.com
А.В. Опрышко – аспирант, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: alexopryshko@yandex.ru
И.И. Латкин – аспирант, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: igor.latkin@outlook.com
А.В. Леонтьев – аспирант, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: alekseyl@list.ru
Г.А. Ожегов – аспирант, кафедра «Системы обработки информации и управления», МГТУ им. Н.Э. Баумана
E-mail: grigory@ozhegov.name


Рассмотрены способы улучшения качества кластеризации текстовых сообщений. Проверены варианты стабилизации времени работы алгоритма, варианты использования семантики текста для кластеризации новостей, базирующиеся на модели Word2Vec и ее дальнейшем улучшении – Word Mover’s Distance (WMD). Предложен вариант изменения алгоритма для увеличения показателей качества и скорости работы. Проведены сравнительные эксперименты, показывающие достижение стабильного результата.

Список литературы:
  1. Гапанюк Ю.Е., Чернобровкин С.В., Латкин И.И., Леонтьев А.В., Ожегов Г.А., Опрышко А.В., Мялкин М.П. Алгоритм кластеризации новостного потока текстовых сообщений // Информационно-измерительные и управляющие системы. 2017. № 10. С. 64−72.
  2. Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality // Advances in neural information processing systems. 2013. P. 3111−3119.
  3. Matt J. Kusner, Yu Sun, Nicholas I. Kolkin, Kilian Q. Weinberger. From Word Embeddings To Document Distances // Proceedings of the 32nd International Conference on International Conference on Machine Learning (ICML'15). 2015. V. 37. P. 957−966.
  4. Charikar M. Similarity estimation techniques from rounding algorithm // ACM Symposium on Theory of Computing. 2002. P. 380−388.
  5. Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near-Duplicates for Web Crawling // Proceedings of 16th international conference on World Wide Web (WWW-07). 2007. P. 141−150.
  6. Shrivastava A., P. Li. In Defense of MinHash Over SimHash // Proceedings of 17-th International Conference on Artificial Intelligence and Statistics (AISTATS). 2014. P. 886−894.
  7. Hongya Wang, Jiao Cao, LihChyun Shu, Davood Rafiei. Locality sensitive hashing revisited: filling the gap between theory and algorithm analysis // Proceedings of 22nd ACM international conference on Information & Knowledge Management (CIKM '13). 2013. P. 1969−1978.
  8. Черненький В.М., Терехов В.И., Гапанюк Ю.Е. Структура гибридной интеллектуальной информационной системы на основе метаграфов // Нейрокомпьютеры: разработка, применение. 2016. № 9. С. 3−14.

© Издательство «РАДИОТЕХНИКА», 2004-2017            Тел.: (495) 625-9241                   Designed by [SWAP]Studio