T.K. Бирюкова
Федеральный исследовательский центр «Информатика и управление» РАН (ФИЦ ИУ РАН) (Москва, Россия)
Постановка проблемы. В нейронных сетях (нейросетях) в классическом случае обучаемыми параметрами являются только веса нейронов. Ставится задача изучить возможность применения в нейронных сетях новых функций активации нейронов, представляющих собой разработанные автором параболические интегродифференциальные сплайны (ИД-сплайны), коэффициенты которых включаются в число обучаемых параметров.
Цель. Увеличить точность работы нейросетей путем использования функций активации в виде параболических ИД-сплайнов. Экспериментально оценить качество работы нейронных сетей с ИД-сплайновыми функциями активации.
Результаты. Разработан алгоритм, позволяющий создать программную реализацию ИД-сплайновой функции активации для ее использования при формировании структуры нейронных сетей, а также при их обучении и функционировании в режиме эксплуатации. Проведено экспериментальное сравнение результатов классификации изображений из популярного набора данных FashionMNIST сверточными нейросетями (с двумя сверточными слоями) с ИД-сплайновыми функциями активации и с 0, x< 0 известными функциями активации ReLUx( ) Результаты экспериментов показали, что при использовании ИД-x x, ≥ 0 сплайновой функции активации точность классификации выше, чем для функции активации ReLU. Время обучения нейросети с двумя ИД-сплайновыми функциями активации примерно в 2 раза больше, чем с двумя функциями ReLU. Увеличение времени обучения (вследствие существенно более сложной формулы ИД-сплайна по сравнению с ReLU) в таком масштабе является разумным компромиссом с учетом большей точности предсказания результатов нейросетью с ИД-сплайновыми функциями активации. При этом в режиме эксплуатации разница в скорости работы нейросетей с ИД-сплайновыми функциями активации и с функциями активации ReLU будет несущественной.
Практическая значимость. Использование настраиваемых ИД-сплайновых функций активации позволяет повысить качество результатов, а также упростить архитектуру нейросетей без потери их эффективности. Перспективным направлением является модификация известных нейросетей (таких как ResNet) путем замены в них функций активации на ИД-сплайновые функции активации. Такая замена во многих случаях значительно сокращает время обучения, так как позволяет использовать предварительно обученные на больших объемах данных (предобученные) веса нейронов, предоставляемые стандартными программными библиотеками для создания нейросетей.
Бирюкова T.K. Алгоритм обработки сигналов в нейронных сетях с функциями активации в виде параболических интегродифференциальных сплайнов и частный случай его применения для классификации изображений // Системы высокой доступности. 2021. Т. 17. № 2. С. 11–25. DOI: https://doi.org/ 10.18127/j20729472-202102-02
- Вершинина А.В., Будзко В.И., Мацко Н.А. Некоторые аспекты возникновения и применения методов искусственного интеллекта // В сб.: Системный анализ и информационные технологии САИТ-2019. Труды VIII Междунар/ конференции. 2019. С. 402–406.
- Соколов И.А., Будзко В.И., Калиниченко Л.А., Синицин И.Н., Ступников С.А. Развитие работ в области «Больших Данных» в Российской академии наук // Системы компьютерной математики и их приложения. 2015 № 16. С. 103–110.
- Будзко В.И. Развитие систем высокой доступности с применением технологий «Большие Данные» // Системы высокой доступности. 2013. Т. 9. № 4. С. 3–15.
- Осипов Г.С. Методы искусственного интеллекта. М.: Физматлит. 2011. 296 с.
- Осипов Г.С. Лекции по искусственному интеллекту. М.: КРАСАНД. 2009. 272 с.
- Бирюкова T.K. Построение нейронных сетей различных типов с использованием параболических интегродифференциальных сплайнов как функций активации // Системы высокой доступности. 2020. Т. 16. № 4. С. 40−49. DOI: 10.18127/j20729472-202004-0.
- Киреев В.И., Бирюкова Т.К. Интегродифференциальный метод обработки информации и его применение в численном анализе. М.: ИПИ РАН. 2014. 267 с.
- Samy Sadek, Ayoub Al-Hamadi, Bernd Michaelis, Usama Sayed. Image Retrieval Using Cubic Splies Neural Networks. International Journal of Video& Image Processing and Network Security IJVIPNS-IJENS. 2009.V. 09. № 10. P. 5–9.
- Campolucci P., Capperelli F., Guarnieri S., Piazza F., Uncini A. Neural networks with adaptive spline activation function. Proceedings of 8th Mediterranean Electrotechnical Conference on Industrial Applications in Power Systems, Computer Science and Telecommunications (MELECON 96). IEEE. 1996. P. 1442–1445.
- Vecci L.,Piazza F., Uncini A. Learning and approximation capabilities of adaptive spline activation function neural networks. Neural Networks. 1998. № 11. P. 259–270.
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition. arXiv preprint arXiv:1512.03385. 2015. 12 р https://arxiv.org/abs/1512.03385
- Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola, Brent Werness, Rachel Hu, Shuai Zhang, Yi Tay, Anirudh Dagar, Yuan Tang. Dive into Deep Learning // https://d2l.ai/index.html
- Шолле Ф. Глубокое обучение на Python. СПб.: Питер. 2018. 400 с.
- Sebastian Ruder. An overview of gradient descent optimization algorithms. arXiv preprint arXiv: 1609.04747. 2016. 14 р. https://arxiv.org/abs/1609.04747
- Волков Е. А. Численные методы. М.: Наука. 1982. 254 с.