Кластерный метод восстановления пропусков в данных для обучения ИНС

350 руб

Журнал «Нейрокомпьютеры: разработка, применение» №7 за 2009 г.

Статья в номере:

Ключевые слова: статический кластер восстановление информации многомерное пространство

Авторы:

В. В. Аюев - к. т. н., доцент каф. ФН1-КФ («Программного обеспечения ЭВМ, информационных технологий и прикладной математики») Калужского филиала Московского государственного технического университета им. Н. Э. Баумана. E-mail: Vadim.Ayuyev@gmail.com З. Е. Аунг - аспирант кафедры ФН1-КФ («Программного обеспечения ЭВМ, информационных технологий и прикладной математики») Калужского филиала Московского государственного технического университета им. Н. Э. Баумана. E-mail: hninmg18@gmail.com Чжо Мин Тейн - аспирант кафедры ФН1-КФ («Программного обеспечения ЭВМ, информационных технологий и прикладной математики») Калужского филиала Московского государственного технического университета им. Н.Э.Баумана. E-mail: zork_kroz@rambler.ru М. Б. Логинова - магистрант кафедры ФН1-КФ («Программного обеспечения ЭВМ, информационных технологий и прикладной математики») Калужского филиала Московского государственного технического университета им. Н.Э.Баумана. E-mail: LadyMio@yandex.ru

Аннотация:

Описан метод восстановления пропусков данных, основанный на механизмах кластеризации и последующего независимого восстановления информации в статических кластерах. Применение метода к разнородным данным с пропусками информации позволило повысить точность аппроксимации пропусков на 15-22% и снизить ошибку работы ИНС на 5-14%.

Список источников

Little, R. J. A. and Rubin, D. B., Statistical Analysis with Missing Data. 2-nd edition. - New Jersey: John Wiley and Sons. 2002. 408 P.
Schafer, J. L., Multiple imputation: a primer // Statistical Methods in Medical Research. 1999. V. 8. N. 1. P. 3-15.
Fujikawa, Y. and Ho, T. B., Cluster-based algorithms for dealing with missing values // Proceedings in Advances in Knowledge Discovery and Data Mining. Berlin: Springer. 2002. P. 549-554.
Mantaras, R. L., A distance-based attribute selection measure for decision tree induction // Machine Learning. 1991. V. 6. P. 81-92.
Gan, G., Ma, C., and Wu, J., Data Clustering: Theory, Algorithms, and Applications // ASA-SIAM Series on Statistics and Applied Probability. Philadelphia: SIAM Press. 2007. V. 20. 466 P.
Wishart, D., K-means clustering with outlier detection, mixed variables and missing values // Schwaiger, M., Opitz, O., Exploratory Data Analysis in Empirical Research. New York: Springer. 2003. P. 216-226.
Chernoff, H. and Lehmann, E. L., The use of maximum likelihood estimates inχ² tests for goodness-of-fit // The Annals of Mathematical Statistics. 1954. V. 25. P. 579-586.
Ertoz, L. and Steinback, M., and Kumar, V., Finding clusters of different sizes, shapes, and density in noisy, high dimensional data // Second SIAM International Conference on Data Mining. SanFrancisco: SIAMPress. 2003. P. 47-58.
АюевВ. В.,Тун Ч., Тура А., Аунг З. Е. Метод доменной компенсации информационной неполноты БД// Тр. МГТУ им. Н. Э. Баумана. Т. 2. М.: МГТУ им. Н. Э. Баумана. 2007. С. 57-64.
Люгер Д.Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем. - М.: Вильямс, 2005. - 864 C.
Crime and Justice Research Center, Temple University. http://www.temple.edu/prodes/
Tan, P. N., Steinbach, and M., Kumar, V., Introduction to Data Mining. New York: Addison Wesley. 2005. 769 P.
Ester, M., Kriegel, H. P., Sander, J., and Xu, X., A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland: AAAI Press. 1996. P. 226-231.
Lehmann, E. L. and Romano,J. P., Testing Statistical Hypotheses, 3-rd edition. NewYork: Springer. 2005.786 P.
Логинов Б. М., Аюев В. В. Нейросетевые агенты в задачах управления с разделением по времени входными данными высокой размерности // Нейрокомпьютеры: разработка и применение. 2007. №5. С. 21-31.
Тархов Д.А. Нейронные сети. Модели и алгоритмы. Кн. 18. //Под общ. ред. А. И. Галушкина.М.: Радиотехника.2005. 256 С.
Hosmer, D. W. and Lemeshow, S., Applied logistic regression, 2-nd edition. New York: John Wiley and Sons. 2000. 392 P.
Cristianini, N. and Shawe-Taylor, J.,An Introduction to Support Vector Machines and other kernel-based learning methods. Cambrige: Cambridge University Press. 2000. 189 P.
Bentley, J. L., K-d Trees for Semidynamic Point Sets // SCG '90: Proc. 6-th Annual Symposium on Computational Geometry. 1990. P. 187-197.
King, G., Honaker, J., Joseph, A., and Scheve, K., Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation // American Political Science Review. 2001. V. 95.N 1.P. 49-69.