А.П. Карпенко, Ю.В. Ямченко, Д.С. Дубровкин
МГТУ им. Н.Э. Баумана (Москва, Россия)
Постановка проблемы. В связи с развитием технологий анализа больших данных и машинного обучения в настоящее время на стыке информатики (computer science) и психологии сформировалось направление психологической информатики (Psy-
choinformatics), ставящее целью исследование паттернов поведения людей в информационном пространстве на основе анализа их цифровых следов. Результаты исследований в этом направления активно используются в сферах онлайн-торговли, информационной безопасности, управления кадровым составом. Методы исследований в данном направлении требуют дополнительных взаимодействий с пользователем в процессе сбора данных, объем собираемых данных ограничен принятыми на исследуемом информационном ресурсе политиками защиты персональных данных. Эти обстоятельства приводят к необходимости поиска альтернативных источников информации и разработке новых методов ее анализа.
В качестве такого источника рассматриваем клавиатурный почерк (КП) пользователей информационной системы (ИС). Методы анализа КП предоставляют возможность непрерывного скрытого мониторинга состояния пользователя с использованием стандартных средств ввода информации (клавиатура, мышь). Это обеспечивает благоприятные условия для эффективного сбора информации, исследования и оценки поведения пользователей в процессе повседневной работы за компьютером. В большинстве работ по исследованию клавиатурного почерка рассматриваются задачи аутентификации и идентификации пользователей. Однако интерес также представляет задача выделения групп пользователей, обладающих схожими характеристиками КП. Решение этой задачи позволяет подойти к проблеме оценки эмоциональных состояний и типов личности пользователей на основании характерных признаков клавиатурного почерка.
Данная работа начинает цикл статей посвященных исследованию характеристик поведения и типов личности пользователей ИС с использованием технологий анализа КП.
Цель. Исследовать возможности кластеризации пользователей на основании анализа характерных особенностей их КП. Задачами исследования являются: организация процесса сбора данных КП пользователей ИС, построение векторов характерных (ВХП) признаков для каждого пользователя, оценка корреляций между характерными признаками КП, проведение кластерного анализа ВХП пользователей.
Результаты. Представлена методология сбора и кластерного анализа данных КП пользователей ИС. Приведено описание характерных признаков КП, исследованы взаимосвязи между этими признаками. В соответствии с представленной методологией выполнен кластерный анализ данных КП сотрудников одной из российских IT-компаний. В финальной части работы выполнено обсуждение полученных результатов, на их основе сформулированы соответствующие выводы.
Практическая значимость. Методология, представленная в данной работе, может быть использована для организации процесса сбора данных КП пользователя информационной системы, построения ВХП пользователей и проведения кластерного анализа на основании собранных данных. Результаты работы будут использованы в следующих публикациях для оценки эмоциональных состояний и типов личности пользователей на основании характерных признаков КП.
Карпенко А.П., Ямченко Ю.В., Дубровкин Д.С. Кластерный анализ пользователей информационных систем на основании характерных особенностей клавиатурного почерка // Системы высокой доступности. 2021. Т. 17. № 2. С. 45−57. DOI: https://doi.org/ 10.18127/j20729472-202102-04
- Buettner R. Predicting user behavior in electronic markets based on personality-mining in large online social networks. Electron. Mark. 2017. V. 27(3). P. 247–265.
- Ямченко Ю.В., Дубровкин Д.С., Палецкий А.Н. Обзор методов определения эмоционального состояния пользователей информационных систем по клавиатурному почерку // Системы высокой доступности. 2020. № 1. C. 65–80.
- Ямченко Ю.В. Методы решения задач аутентификации и идентификации пользователя на основе анализа клавиатурного почерка // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2020. № 1 (130). C. 124–139.
- Mehta Y., Maujmder N., Gelbrukh A., Cambria E. Recent Trends in deep lerning based personality detection. Artificial Intelligence Review. 2019. V. 53(4). P. 2313–2339.
- Kosinski M., Stillwell D., Graepel T. Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences. 2013. V. 110. P. 5802–5805.
- Tadesse M.M., Lin H., Xu B., Yang L. Personality Predictions Based on User Behaviour on Facebook Social Media Platform. IEEE Access. 2018. V. 6. P. 61959–61969.
- Gjurkovic M., Snajder J. Reddit: A gold mine for personality prediction. In Proceedings of the Second Workshop on Computational Modeling of Peoples Opinions, Personality, and Emotions in Social Media. 2018. P. 87–97.
- Skowron M., Tkalcic M., Ferwerda B., Schedl M. Fusing social media cues: Personality prediction from Twitter and Instagram. In Proceedings of the 25th International Conference Companion on World Wide Web. 2016. P. 107–108.
- Verhoeven B., Daelemans W., Plank B. TwiSty: A multilingual Twitter stylometry corpus for gender and personality profiling. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). 2016. P. 1632–1637.
- Priaynka J., Dharmender K. A Review on Dimensionality Reduction Techniques. International Journal of Computer Applications. 2017. V. 173(2). P. 42–46.
- Sorzano C., Vargas J., Pascual-Montano A. A survey of dimensionality reduction techniques [Электронный ресурс] // arXiv.org. 2014. Дата обновления: 12.03.2014. URL: https://arxiv.org/abs/1403.2877 (дата обращения: 05.01.2021).
- Chao G., Luo Y., Ding W. Recent advances in supervised dimension reduction: A survey. Machine Learning and Knowledge Extraction. 2019. V. 1(1). P. 341–358.
- Zheng A., Casari A. Feature Engineering for Machine Learning. Principles and Techniques for Data scientists. O`REILLY Media, Inc., United States of America. 2018. P. 193.
- Omran M., Engelbrecht A., Salman A.A. An overview of clustering methods. Intelligent Data Analysis. 2007. V. 11 (6). P. 583–605.
- Singh S., Srivastsva S. Review of Clustering Techniques in Control System. Procedia Computer Science. 2020. V. 173. P. 272–280.