Д.А. Кузнецов1, Н.П. Плотникова2, С.А. Федосин3
1−3 Национальный исследовательский Мордовский государственный университет (г. Саранск, Республика Мордовия, Россия)
Постановка проблемы. Одной из самых часто встречаемых задач, при решении которых востребованы группировка, классификация и кластеризация данных? является кластеризация и классификация текстовой информации. Подобная задача требует решения для разного набора текстовой информации − от научных статей до сообщений в социальных сетях. Особый интерес представляет исследование и разработка таких алгоритмов применительно к информации, имеющей иерархическую структуру, например, нормативно-справочная информация, т.е. разного рода прайс-листы или справочники, исходная иерархическая структура которых не всегда точна и однозначна. Использующийся алгоритм кластеризации ITER-DBSCAN [3] основан на принципе итеративной кластеризация данных, в котором на каждой итерации обрабатываются шумы, оставшиеся с предыдущей итерации, но с другими параметрами кластеризации. Однако он не выделяет иерархическую структуру данных, поэтому на каждой итерации меняются оба параметра кластеризации.
Цель. Представить алгоритм кластеризации текстовой информации для проверки и построения иерархической структуры нормативно-справочной информации на примере работы с прайс-листами.
Результаты. Предложена агломеративная кластеризация нормативно-справочной информации на основе алгоритма DBSCAN с применением итеративного подхода к кластеризации данных одного уровня иерархической структуры. Установлено, что итоговая иерархическая структура похожа на изначальную структуру, но имеет бóльшее число уровней, что свидетельствует о более точном выделении уровней иерархии.
Практическая значимость. Предложенный алгоритм кластеризации может быть применен для построения и проверки иерархии нормативно-справочной информации. Применение принципа алгоритма DBSCAN для агломеративной кластеризации возможно и для других алгоритмов кластеризации с выделением шумов, что позволяет провести дополнительные исследования, нацеленные на улучшение итоговой точности кластеризации нормативно-справочной информации.
Кузнецов Д.А., Плотникова Н.П., Федосин С.А. Агломеративная кластеризация алгоритмом DBSCAN с применением итеративного подхода // Нелинейный мир. 2021. Т. 19. № 3. С. 29−36. DOI: https://doi.org/10.18127/j20700970-202103-03
- Bouguettaya A., Yu, Q., Liu X., Zhou X., Song A. Efficient agglomerative hierarchical clustering // Expert Systems with Applications. 2015. V. 42. № 5. P. 2785–2797.
- Murtagh F., Contreras P. Algorithms for hierarchical clustering: an overview // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2012. V. 2. № 1. P. 86–97.
- Chatterjee A., Shubhashis S. Intent Mining from past conversations for Conversational Agent // Proceedings of the 28th International Conference on Computional Lingustics Intent Mining from past conversations for Conversational Agent. Donia Scott, Nuria Bel, Chengqing Zong. International Committee on Computational Linguistics. 2020. P. 4140–4152.
- Abir S., Zied E. Soft dbscan: Improving dbscan clustering method using fuzzy set theory // 2013 6th International Conference on Human System Interactions (HSI). IEEE. 2013. P. 380−385.
- Ester M., Kriegel H.-P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96)/ Evangelos Simoudis, Jiawei Han, Usama M. Fayyad. AAAI Press. 1996. P. 226–231.
- Немчинова Е.А., Плотникова Н.П., Федосин С.А. Подготовка и обработка нормативно-справочной текстовой информации для классификации с помощью искусственных нейронных сетей // Нелинейный мир. 2019. Т. 17. № 2 С. 27−33.