Анализ особенностей глубоких нейронных сетей на примере задачи распознавания цифр

350 руб

Журнал «Нейрокомпьютеры: разработка, применение» №2 за 2017 г.

Статья в номере:

Ключевые слова: глубокие нейронные сети обучение представлениям функция активации скрытый слой ректификационный линейный элемент послойная инициализация регуляризация ранний останов переобучение

Авторы:

Ю.С. Федоренко - аспирант, кафедра «Системы обработки информации и управления», Московский государственный технический университет им. Н.Э. Баумана E-mail: Fedyura1992@yandex.ru Ю.Е. Гапанюк - к.т.н., доцент, кафедра «Системы обработки информации и управления», Московский государственный технический университет им. Н.Э. Баумана E-mail: gapyu@bmstu.ru

Аннотация:

Рассмотрены особенности глубоких нейронных сетей, позволяющие им автоматически строить представления данных. Исследованы основные проблемы обучения традиционных нейросетей и показаны пути их решения в глубоких нейронных сетях. Описаны принципы построения многослойных персептронов на примере задачи распознавания цифр (выбор числа слоев, стратегия инициализации весов, регуляризация, ранний останов). Проанализированы результаты работы архитектур в зависимости от числа обучаемых параметров и даны практические рекомендации.

Страницы: 24-30

Список источников

Rosenblatt F. The perceptron, a perceiving and recognizing automaton Project Para. Cornell Aeronautical Laboratory. 1957.
Rumelhart D. E., Hinton G. E., Williams R. J. Learning Internal Representations by Error Propagation // Parallel Distributed Processing. V. 1. Cambridge, MA: MIT Press. 1986. P. 318-362.
Hinton G. E., Osindero S., Teh Y. W. A fast learning algorithm for deep belief nets // Neural computation. 2006. V. 18. № 7. P. 1527-1554.
Hill F., Cho K., Korhonen A. Learning Distributed Representations of Sentences from Unlabelled Data // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego. California. 2016. P. 1367-1377.
Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are Universal Approximators // Neural Networks. 1989. V. 2. P. 359-366. DOI: 10.1016/0893-6080(89)90020-8.
Leshno M., Lin V.Y., Pinkus A., Schocken S. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function // Neural Networks. 1993. № 6. P. 861-867. DOI: 10.1016/S0893-6080(05)80131-5.
Montufar G.F., Pascanu R., Cho K., Bengio, Y. On the Number of Linear Regions of Deep Neural Networks // Advances in neural information processing systems. 2014. № 27. P. 2924-2932.
Bengio Y., LeCun Y. Scaling learning algorithms towards AI // Large-Scale Kernel Machines, 5. MIT Press, Cambridge, MA, USA. 2007. P. 127-168.
LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. V. 521. P. 436-444.
Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks. Proceedings of the 13-th International Conference on artificial Intelligence and Statistics. Sardinia, Italy, 2010. P. 249-256.
LeCun Y., Cortes C., Burges C. The MNIST Database of handwritten digits. Available at: http://yann.lecun.com/exdb/mnist/ (accessed 15.10.2016).
Bengio Y. et. al. Theano: A Python framework for fast computation of mathematical expressions. Available at: https://arxiv.org/pdf/1605.02688v1.pdf (accessed 15.10.2016).
Bishop C. Pattern recognition and machine learning. Springer Science Business Media. 2006. 758 p.
Хайкин С. Нейронные сети: полный курс. Изд. 2-е: Пер. с англ. Н.Н. Куссуль, А.Ю. Шелестова. М.: Вильямс. 2006. 1104 с.
Черненький В.М., Терехов В.И., Гапанюк Ю.Е. Структура гибридной интеллектуальной информационной системы на основе метаграфов // Нейрокомпьютеры: разработка, применение. 2016. Вып. № 9. С. 3-14.