Журнал «Системы высокой доступности» №2 за 2021 г.
Статья в номере:
Кластерный анализ пользователей информационных систем на основании характерных особенностей клавиатурного почерка
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j20729472-202102-04
УДК: 004.8
Авторы:

А.П. Карпенко, Ю.В. Ямченко, Д.С. Дубровкин

МГТУ им. Н.Э. Баумана (Москва, Россия)

Аннотация:

Постановка проблемы. В связи с развитием технологий анализа больших данных и машинного обучения в настоящее время на стыке информатики (computer science) и психологии сформировалось направление психологической информатики (Psy-

choinformatics), ставящее целью исследование паттернов поведения людей в информационном пространстве на основе анализа их цифровых следов. Результаты исследований в этом направления активно используются в сферах онлайн-торговли, информационной безопасности, управления кадровым составом. Методы исследований в данном направлении требуют дополнительных взаимодействий с пользователем в процессе сбора данных, объем собираемых данных ограничен принятыми на исследуемом информационном ресурсе политиками защиты персональных данных. Эти обстоятельства приводят к необходимости поиска альтернативных источников информации и разработке новых методов ее анализа.

В качестве такого источника рассматриваем клавиатурный почерк (КП) пользователей информационной системы (ИС). Методы анализа КП предоставляют возможность непрерывного скрытого мониторинга состояния пользователя с использованием стандартных средств ввода информации (клавиатура, мышь). Это обеспечивает благоприятные условия для эффективного сбора информации, исследования и оценки поведения пользователей в процессе повседневной работы за компьютером. В большинстве работ по исследованию клавиатурного почерка рассматриваются задачи аутентификации и идентификации пользователей. Однако интерес также представляет задача выделения групп пользователей, обладающих схожими характеристиками КП. Решение этой задачи позволяет подойти к проблеме оценки эмоциональных состояний и типов личности пользователей на основании характерных признаков клавиатурного почерка.

Данная работа начинает цикл статей посвященных исследованию характеристик поведения и типов личности пользователей ИС с использованием технологий анализа КП.

Цель. Исследовать возможности кластеризации пользователей на основании анализа характерных особенностей их КП. Задачами исследования являются: организация процесса сбора данных КП пользователей ИС, построение векторов характерных (ВХП) признаков для каждого пользователя, оценка корреляций между характерными признаками КП, проведение кластерного анализа ВХП пользователей.

Результаты. Представлена методология сбора и кластерного анализа данных КП пользователей ИС. Приведено описание характерных признаков КП, исследованы взаимосвязи между этими признаками. В соответствии с представленной методологией выполнен кластерный анализ данных КП сотрудников одной из российских IT-компаний. В финальной части работы выполнено обсуждение полученных результатов, на их основе сформулированы соответствующие выводы.

Практическая значимость. Методология, представленная в данной работе, может быть использована для организации процесса сбора данных КП пользователя информационной системы, построения ВХП пользователей и проведения кластерного анализа на основании собранных данных. Результаты работы будут использованы в следующих публикациях для оценки эмоциональных состояний и типов личности пользователей на основании характерных признаков КП.

Страницы: 45-57
Для цитирования

Карпенко А.П., Ямченко Ю.В., Дубровкин Д.С. Кластерный анализ пользователей информационных систем на основании характерных особенностей клавиатурного почерка // Системы высокой доступности. 2021. Т. 17. № 2. С. 45−57. DOI: https://doi.org/ 10.18127/j20729472-202102-04

Список источников
  1. Buettner R. Predicting user behavior in electronic markets based on personality-mining in large online social networks. Electron. Mark. 2017. V. 27(3). P. 247–265.
  2. Ямченко Ю.В., Дубровкин Д.С., Палецкий А.Н. Обзор методов определения эмоционального состояния пользователей информационных систем по клавиатурному почерку // Системы высокой доступности. 2020. № 1. C. 65–80.
  3. Ямченко Ю.В. Методы решения задач аутентификации и идентификации пользователя на основе анализа клавиатурного почерка // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2020. № 1 (130). C. 124–139.
  4. Mehta Y., Maujmder N., Gelbrukh A., Cambria E. Recent Trends in deep lerning based personality detection. Artificial Intelligence Review. 2019. V. 53(4). P. 2313–2339.
  5. Kosinski M., Stillwell D., Graepel T. Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences. 2013. V. 110. P. 5802–5805.
  6. Tadesse M.M., Lin H., Xu B., Yang L. Personality Predictions Based on User Behaviour on Facebook Social Media Platform. IEEE Access. 2018. V. 6. P. 61959–61969.
  7. Gjurkovic M., Snajder J. Reddit: A gold mine for personality prediction. In Proceedings of the Second Workshop on Computational Modeling of Peoples Opinions, Personality, and Emotions in Social Media. 2018. P. 87–97.
  8. Skowron M., Tkalcic M., Ferwerda B., Schedl M. Fusing social media cues: Personality prediction from Twitter and Instagram. In Proceedings of the 25th International Conference Companion on World Wide Web. 2016. P. 107–108.
  9. Verhoeven B., Daelemans W., Plank B. TwiSty: A multilingual Twitter stylometry corpus for gender and personality profiling. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). 2016. P. 1632–1637.
  10. Priaynka J., Dharmender K. A Review on Dimensionality Reduction Techniques. International Journal of Computer Applications. 2017. V. 173(2). P. 42–46.
  11. Sorzano C., Vargas J., Pascual-Montano A. A survey of dimensionality reduction techniques [Электронный ресурс] // arXiv.org. 2014. Дата обновления: 12.03.2014. URL: https://arxiv.org/abs/1403.2877 (дата обращения: 05.01.2021).
  12. Chao G., Luo Y., Ding W. Recent advances in supervised dimension reduction: A survey. Machine Learning and Knowledge Extraction. 2019. V. 1(1). P. 341–358.
  13. Zheng A., Casari A. Feature Engineering for Machine Learning. Principles and Techniques for Data scientists. O`REILLY Media, Inc., United States of America. 2018. P. 193.
  14. Omran M., Engelbrecht A., Salman A.A. An overview of clustering methods. Intelligent Data Analysis. 2007. V. 11 (6). P. 583–605.
  15. Singh S., Srivastsva S. Review of Clustering Techniques in Control System. Procedia Computer Science. 2020. V. 173. P. 272–280.
Дата поступления: 13.05.2021
Одобрена после рецензирования: 20.05.2021
Принята к публикации: 02.06.2021