П.В. Дударин – аспирант, кафедра «Информационные системы»,
Ульяновский государственный технический университет
E-mail: pavel.dudarin@gmail.com
Н.Г. Ярушкина – д.т.н., профессор, зав. кафедрой «Информационные системы»,
Ульяновский государственный технический университет E-mail: jng@ulstu.ru
Предложен алгоритм построения иерархического классификатора коротких текстовых фрагментов путем проведения иерархической кластеризации нечеткого графа. Проблема классификации и кластеризации коротких текстовых фрагментов, полностью или частично лишенных контекста, достаточно распространена. Отмечено, что примерами таких фрагментов могут служить смс, сообщения в твиттере, заголовки статей или новостей и т.п., при этом внимание сосредоточено на ключевых показателях системы стратегического планирования Российской Федерации. Классификатор построен на основе результатов работы алгоритма кластеризации. В качестве модели для исследуемого объекта выбран нечеткий граф, как наиболее естественное представление связанных между собой слов. Показано, что выбранный подход позволяет повторять кластеризацию рекурсивно, и как следствие получаемый результат представляет собой иерархию.
- X. Han, J. Ma, Y. Wu, C. Cui. A novel machine learning approach to rank web forum posts // Soft Computing. 2014. V. 18. № 5. P. 941−959.
- Федеральный закон «О стратегическом планировании в Российской Федерации» № 172-ФЗ от 28.07.2014 г. URL = http://pravo.gov.ru/proxy/ips/?docbody=&nd=102354386 (02.05.2017).
- Официальный сайт Министерства экономического развития Российской Федерации. URL = http://economy.gov.ru/minec/activity/sections/strategicPlanning/ (02.05.2017).
- Официальный сайт Федеральной службы государственной статистики. URL = http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/databases/emiss/ (02.05.2017).
- Ball, Geoffrey H., Hall, David J. Isodata: a method of data analysis and pattern classification // Stanford Research Institute, Menlo Park,United States. Office of Naval Re-search. Information Sciences Branch. 1965.
- Desen Hou, Yundong Gu. An Efficient Successive Iteration Partial Cluster Algo-rithm for Large datasets // Fuzzy Information and Engineering. V. 78 of the series Ad-vances in Intelligent and Soft Computing. 2010. P. 557−562.
- Jie Zhang, Yuping Wang, Junhong Feng. A hybrid clustering algorithm based on PSO with dynamic crossover // Soft Computing, 2014. V. 18. № 5. P. 961−979.
- Ruspini E.H. A new approach to clustering // Inform. and Control. 1969. 15 (1) 22−32.
- Novák V., Perfilieva I., Jarushkina N.G. A general methodology for managerial decision making using intelligent techniques // Chapter Recent Advances in Decision Mak-ing. Series Studies in Computational Intelligence. 2009. Vol., 222. P. 103−120.
- Wang Li, Li Dong, Jing Tao. A Fast Global Fuzzy Clustering Algorithm for the Chemical Gray Box Modeling // Fuzzy Information and Engineering. 2010. V. 78 of the series Advances in Intelligent and Soft Computing P. 571−579. 2010.
- Yingxain Chen, Mingfeng Han, Huawei Zhu. Ant Spatial Clustering Based on Fuzzy IF-THEN Rule // Fuzzy Information and Engineering. 2010. V. 78 of the series Advances in Intelligent and Soft Computing. 2010. P. 563−569.
- Mansoori E.G. GACH: a grid based algorithm for hierarchical clustering of high-dimensional data // Soft Computing. 2014. V. 18. № 5. P. 905−922.
- Славнов К.А. Анализ социальных графов. 2015. URL = http://www.machinelearning.ru/wiki/images/6/60/2015_417_SlavnovKA.pdf (02.05.2017).
- Vincent D. Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre. Fast unfolding of communities in large networks // J. Stat. Mech. 2008.
- Rosenfeld A., Fuzzy graphs // Fuzzy Sets and Their Applications to Cognitive and Decision Processes. L.A. Zadeh, K.S. Fu, K. Tanaka, M. Shimura (Eds.). New York: Academic Press. 1975. P. 77−95.
- Raymond T Yeh, Bang S.Y. Fuzzy relation, fuzzy graphs and their applications to clustering analysis // Fuzzy Sets and their Applications to Cognitive and Decision Processes. Academic Press. 1975. P. 125−149. ISBN 9780127752600.
- Sandeep Narayan K.R., Sunitha M.S., Connectivity in a Fuzzy Graph and its Complement // Gen. Math. Notes.March 2012. V. 9. № 1. P. 38−43. ISSN 2219-7184.
- Sameena K. Clustering Using Strong Arcs in Fuzzy Graphs // Gen. Math. Notes. 2012. V. 30. № 1. September 2015. P. 60−68. ISSN 2219-7184.
- Chandrasekaran E., N.Sathyaseelan. Fuzzy node fuzzy graph and its cluster analysis // International Journal of Engineering Research and Applications (IJERA). May-June 2012. V. 2. № 3. P. 733−738. ISSN 2248-9622.
- Yihong Dong, Yueting Zhuang, Ken Chen, Xiaoying Tai. A hierarchical clustering algorithm based on fuzzy graph connectedness // Fuzzy Sets and Systems. 2006. V. 157. № 13. P. 1760−1774. ISSN 0165-0114.
- Гречачин В.А. К вопросу о токенизации текста // Междунар. научно-исследовательский журнал. 2016. № 6 (48) Часть 4. С. 25−27.
- HabrHabr о Pymorphy2. 2015. URL = // https://habrahabr.ru/post/176575/ (02.05.2017).
- Kutuzov Andrey and Andreev Igor. (2015) Texts in, meaning out: neural language models in semantic similarity task for Russian // Proceedings of Conference Dialog 2015. Moscow, Russia.
- Официальная документациия по Gephi. Gephi as a tool of data visualization. 2012. URL = // https://habrahabr.ru/post/136575/ (02.05.2017).
- Распоряжение Правительства РФ № 1398-р от 29.07.2014. URL = // http://government.ru/docs/14051 (02.05.2017).
- Dudarin P., Pinkov A., Yarushkina N. Methodology and the algorithm for clustering economic analytics object // Automation of Control Processes. 2017. V. 47. № 1. P. 85−93.