Журнал «Успехи современной радиоэлектроники» №4 за 2021 г.
Статья в номере:
Методика автоматизированной обработки данных на основе тематического моделирования
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j20700784-202104-08
УДК: 004.8
Авторы:

А.А. Иванов¹, Е.К. Ведерников², А.А. Смирнов³

1,2 ООО «СТЦ» (Санкт-Петербург, Россия)

3 Военная академия связи имени Маршала Советского Союза С.М. Буденного (Санкт-Петербург, Россия)

Аннотация:

Постановка проблемы. Известные методики и алгоритмы выявления групп абонентов документального обмена основаны на использовании маршрутно-адресных признаков сообщений. В случае, когда эти признаки перестают быть информативными, необходимо учитывать содержание сообщений.

Цель. Разработать методику, позволяющую автоматизировать решение частной задачи обработки неструктурированных  текстовых данных – выявление групп абонентов документального обмена с общими сферами интересов.

Результаты. Представлена методика применения теории аддитивной регуляризации тематических моделей для выявления групп абонентов документального обмена с общими сферами интересов с помощью статистического анализа содержания их сообщений.  

Практическая значимость. Применение разработанной методики позволяет выявлять группы абонентов документального обмена с общими сферами интересов и может применяться в качестве элемента информационно-аналитического обеспечения систем поддержки принятия решений и информационно-управляющих систем различного назначения.

Страницы: 57-62
Для цитирования

Иванов А.А., Ведерников Е.К., Смирнов А.А. Методика автоматизированной обработки данных на основе тематического моделирования // Успехи современной радиоэлектроники. 2021. T. 75. № 4. С. 57–62. DOI: https://doi.org/10.18127/j20700784-202104-08

Список источников
  1. Иванов А.А., Кудрявцев А.М., Смирнов А.А. Концептуальные проблемы информационно-аналитической работы в современном военном противостоянии // Военная мысль. 2020. № 9. С. 79–85.
  2. Wang W., Kennedy R., Lazer D., Ramakrishnan N. Growing pains for global monitoring of societal events // Science. 2016. V. 353 (6307). P. 1502–1503.
  3. Wiil U. Counterterrorism and Open Source Intelligence. Lecture Notes in Social Networks. Springer. 2011.
  4. Dhar V. Data Science and Prediction // Communications of the ACM. 2013. V. 56. № 1. P. 64–73.
  5. Воронцов К.В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM. URL: http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf.
  6. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета. 2011.
  7. Eisenstein J., Ahmed A., Xing E.P. Sparce additive generative models of text // ICML’11. 2011. P. 1041–1048.
  8. Shang J., Liu J., Jiang M., Ren X., Voss C.R., Han J. Automated phrase mining from massive text corpora // CoRR. 2017. V. abs/1702.04457.
  9. Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. Т. 456. № 3. С. 268–271.
  10. Воронцов К.В., Потапенко А.А. Модификация EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Т. 1. № 6. С. 657–686.
  11. Грэхем Р., Кнут Д., Паташник О. Конкретная математика. М.: Мир. 1998.
  12. Сайт проекта BigARTM. URL: https://bigartm.org.
  13. Программная реализация и исходные данные примера. URL: https://github.com/EgoVed/topic_model.
Дата поступления: 10.03.2021
Одобрена после рецензирования: 24.03.2021
Принята к публикации: 01.04.2021