А.А. Иванов¹, Е.К. Ведерников², А.А. Смирнов³
1,2 ООО «СТЦ» (Санкт-Петербург, Россия)
3 Военная академия связи имени Маршала Советского Союза С.М. Буденного (Санкт-Петербург, Россия)
Постановка проблемы. Известные методики и алгоритмы выявления групп абонентов документального обмена основаны на использовании маршрутно-адресных признаков сообщений. В случае, когда эти признаки перестают быть информативными, необходимо учитывать содержание сообщений.
Цель. Разработать методику, позволяющую автоматизировать решение частной задачи обработки неструктурированных текстовых данных – выявление групп абонентов документального обмена с общими сферами интересов.
Результаты. Представлена методика применения теории аддитивной регуляризации тематических моделей для выявления групп абонентов документального обмена с общими сферами интересов с помощью статистического анализа содержания их сообщений.
Практическая значимость. Применение разработанной методики позволяет выявлять группы абонентов документального обмена с общими сферами интересов и может применяться в качестве элемента информационно-аналитического обеспечения систем поддержки принятия решений и информационно-управляющих систем различного назначения.
Иванов А.А., Ведерников Е.К., Смирнов А.А. Методика автоматизированной обработки данных на основе тематического моделирования // Успехи современной радиоэлектроники. 2021. T. 75. № 4. С. 57–62. DOI: https://doi.org/10.18127/j20700784-202104-08
- Иванов А.А., Кудрявцев А.М., Смирнов А.А. Концептуальные проблемы информационно-аналитической работы в современном военном противостоянии // Военная мысль. 2020. № 9. С. 79–85.
- Wang W., Kennedy R., Lazer D., Ramakrishnan N. Growing pains for global monitoring of societal events // Science. 2016. V. 353 (6307). P. 1502–1503.
- Wiil U. Counterterrorism and Open Source Intelligence. Lecture Notes in Social Networks. Springer. 2011.
- Dhar V. Data Science and Prediction // Communications of the ACM. 2013. V. 56. № 1. P. 64–73.
- Воронцов К.В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM. URL: http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf.
- Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета. 2011.
- Eisenstein J., Ahmed A., Xing E.P. Sparce additive generative models of text // ICML’11. 2011. P. 1041–1048.
- Shang J., Liu J., Jiang M., Ren X., Voss C.R., Han J. Automated phrase mining from massive text corpora // CoRR. 2017. V. abs/1702.04457.
- Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. Т. 456. № 3. С. 268–271.
- Воронцов К.В., Потапенко А.А. Модификация EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Т. 1. № 6. С. 657–686.
- Грэхем Р., Кнут Д., Паташник О. Конкретная математика. М.: Мир. 1998.
- Сайт проекта BigARTM. URL: https://bigartm.org.
- Программная реализация и исходные данные примера. URL: https://github.com/EgoVed/topic_model.