Т.К. Бирюкова – к.ф.-м.н., ст. науч. сотрудник, SPIN-код: 4318-5250
Постановка проблемы. Необходимо разработать способ применения интегродифференциальных параболических сплайнов (ИД-сплайнов) в качестве функций активации в нейронных сетях (нейросетях). Параболический ИД-сплайн в качестве функции активации повышает точность результатов работы нейросети по сравнению с общеизвестными ненастраиваемыми функциями активации за счет того, что коэффициенты сплайна содержат обучаемые параметры. Функция активации в виде параболического ИД-сплайна меняется в процессе обучения так, чтобы минимизировать функцию потерь, что позволяет эффективно использовать сети более простой архитектуры (с меньшим числом слоев, нейронов), чем при неизменяемых функциях активации. Это сокращает время обучения и повышает скорость работы нейросети в режиме эксплуатации.
Цель. Рассмотреть метод применения параболического ИД-сплайна в качестве функции активации в полносвязной нейронной сети и указать возможности использования этого сплайна при построении нейронных сетей различных типов.
Результаты. Разработан метод применения параболического ИД-сплайна в качестве функции активации в полносвязной нейронной сети и указаны возможности использования такого сплайна в нейросетях различных типов. Показано, что предлагаемый метод позволяет заменять стандартные функции активации на параболические ИД-сплайны в нейросетях с известными архитектурами (например, ResNet). Такая замена не исключает использование предварительно обученных на больших массивах данных весов нейронов, поставляемых производителями программных библиотек для разработки нейросетей. Установлено, что применение ИД-сплайновых функций активации позволяет как оптимизировать работу популярных нейросетей, так и создавать новые нейросети с обучаемыми параметрами функций активации.
Практическая значимость. Функции активации входят в состав практически всех нейросетей, следовательно, параболические ИД-сплайны в качестве функций активации могут эффективно применяться для разработки технологий искусственного интеллекта, в частности, таких как: создание роботов; построение экспертных систем; поиск закономерностей; прогнозирование событий; сжатие и повышение качества данных; систематизация данных; выявление аномалий (например, мошеннических банковских операций); обработка изображений, текстов, речи, звуковых сигналов.
Бирюкова T.K. Построение нейронных сетей различных типов с использованием параболических интегродифференциальных сплайнов как функций активации // Системы высокой доступности. 2020. Т. 16. № 4. С. 40−49. DOI: 10.18127/j20729472-202004-03.
- Соколов И.А., Будзко В.И., Калиниченко Л.А., Синицин И.Н., Ступников С.А. Развитие работ в области «Больших Данных» в Российской академии наук // Системы компьютерной математики и их приложения. 2015. № 16. С. 103−110.
- Будзко В.И. Развитие систем высокой доступности с применением технологий «Большие Данные» // Системы высокой доступности. 2013. Т. 9. № 4. С. 3−15.
- Киреев В.И., Бирюкова Т.К. Интегродифференциальный метод обработки информации и его применение в численном анализе. М.: ИПИ РАН. 2014. 267 с.
- Бирюкова Т.К., Гершкович М.М., Киреев В.И. Интегро-дифференциальные многочлены и сплайны произвольной четной степени в задачах анализа параметров функционирования распределенных информационных систем // Материалы XIII Междунар. научной конф. «Системы компьютерной математики и их приложения» (СКМП-2012), посвященной 75-летию профессора Э.И. Зверовича. Смоленск, 18−20 мая 2012. Смоленск: Изд-во СмолГУ. 2012. № 13. С. 67−72.
- Стечкин С.Б., Субботин Ю.Н. Сплайны в вычислительной математике. М.: Наука. 1976. 248 с.
- Simone Scardapane, Michele Scarpiniti, Danilo Comminiello and Aurelio Uncini Learning activation functions from data using cubic spline interpolation // URL = https://arxiv.org/pdf/1605.05509.pdf. 2016. 10 p.
- Samy Sadek, Ayoub Al-Hamadi, Bernd Michaelis, Usama Sayed Image Retrieval Using Cubic Splies Neural Networks // International Journal of Video & Image Processing and Network Security IJVIPNS-IJENS. 2009. V. 9. № 10. P. 5−9.
- Campolucci P., Capperelli F., Guarnieri S., Piazza F., Uncini A. Neural networks with adaptive spline activation function // Proc. of 8th Mediterranean Electrotechnical Conference on Industrial Applications in Power Systems, Computer Science and Telecommunications (MELECON 96). IEEE. 1996. P. 1442−1445.
- Lorenzo Vecci, Francesco Piazza, Aurelio Uncini Learning and approximation capabilities of adaptive spline activation function neural networks // Neural Networks. 1998. № 11. P. 259−270.
- Mariam Abdul-Zahra Raheem, Ehab AbdulRazzaq Hussein Classification of EEG Signals Using Quantum Neural Network and Cubic Spline // INTL Journal of Electronics and Telecommunications. 2016. V. 62. № 4. P. 401−408.
- Helmut A. Mayer, Roland Schwaiger Evolution of Cubic Spline Activation Functions for Artificial Neural Networks // Progress in Artificial Intelligence Portugal. 2001. P. 63−73.
- Шолле Ф. Глубокое обучение на Python. СПб.: Питер. 2018. 400 с.
- Волков Е.А. Численные методы. М.: Наука. 1982. 254 с.
- Киреев В.И., Бирюкова Т.К., Гершкович М.М. Квадратурные и кубатурные формулы на нерегулярном шаблоне // Материалы XV Междунар. научной конф. «Системы компьютерной математики и их приложения» (СКМП-2014). Смоленск, 16−18 мая 2014. Смоленск: Изд-во СмолГУ. 2014. № 15. С. 157−163.