Д.В. Плаксин1, Т.Е. Бадокина2, Е.В. Щенникова3
1–3 ФГБОУ ВО «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарева» (г. Саранск, Россия)
1dmitriy.plaksin1@yandex.ru; 2badokinate@math.mrsu.ru; 3schennikova8000@yandex.ru
Постановка проблемы. Проблема классификации музыкальных эмоций возникает при построении рекомендательных систем для создания плейлистов по настроению. Однако существующие методы классификации музыкальных эмоций не всегда обеспечивают достаточную точность. Это создает потребность в разработке более эффективных методов и моделей, так как в настоящее время множество современных музыкальных онлайн-сервисов стремятся персонализировать контент при помощи рекомендательных систем, включая создание подборок по настроению. Для формирования таких плейлистов прежде всего необходимо решить задачу распознавания эмоционального тона музыкальных композиций на основе ее текста и аудиохарактеристик. Эта задача относится к области управления и обработки информации.
Цель. Разработать модель машинного обучения, улучшающую показатели качества предсказания музыкальных эмоций на основе анализа известных и актуальных методов и моделей.
Результаты. Проанализированы способы извлечения характеристик музыкальных композиций, методы организации архитектуры для решения поставленной задачи. Разработана ансамблевая архитектура и модель машинного обучения на основе алгоритмов стекинга, многослойного перцептрона (с функцией активации ReLu), дерева принятия решения и бэггинга для классификации музыкальных эмоций. Проведен сравнительный анализ по метрике F-мера с альтернативными подходами на том же наборе данных.
Практическая значимость. Разработанная модель может быть использована в системах музыкальных рекомендаций для автоматического создания плейлистов по настроению, которая улучшает пользовательский опыт и качество персонализированных музыкальных сервисов.
Плаксин Д.В., Бадокина Т.Е., Щенникова Е.В. Классификация музыкальных эмоций с использованием технологий машинного обучения // Нелинейный мир. 2025. Т. 23. № 2. С. 22–31. DOI: https://doi.org/10.18127/ j20700970-202502-03
- Yang Y.-H., Chen H.H. Music Emotion Recognition. CRC Press. 2011. 262 p.
- Плаксин Д.В. Применение нейросетевых технологий при проектировании рекомендательных систем в музыкальных онлайн-сервисах // Материалы XXV науч.-практ. конф. молодых ученых, аспирантов и студентов Национального исследовательского Мордовского государственного университета. В 3-х частях. Саранск. 2022. Т. 2. С. 349–354.
- Katayose H., Imai M., Inokuchi S. Sentiment extraction in music. Proceedings of the International Conference on Engineering and Telecommunication. Rome. 1988. V. 2. Р. 1083–1087.
- Feng Y., Zhuang Y., Pan Y. Popular Music Retrieval by Detecting Mood. Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Toronto. 2003. P. 375–376.
- Lu L., Liu D., Jang H.-J. Automatic mood detection and tracking of music audio signal. IEEE Transactions on Audio, Speech, and Language Processing. 2006. V. 14. № 1. P. 5–18.
- Sujeesha S., Rajan R. Transformer-based Automatic Music Mood Classification Using Multi-modal Framework. Journal of Computer Science and Technology. 2023. V. 23. P. 18–34.
- Xiaoguang J. Music Emotion Classification Method Based on Deep Learning and Improved Attention Mechanism. Computational Intelligence and Neuroscience. 2022.
- Rajesh S., Nalini N. J. Musical instrument emotion recognition using deep recurrent neural network. Procedia Computer Science. 2020. V. 167. P. 16–25.
- Han X., Chen F, Ban J. Music Emotion Recognition Based on a Neural Network with an Inception-GRU Residual Structure. Electronics. 2023. V. 12. № 4.
- AudioSet [Электронный ресурс] URL= https://research.google.com/audioset/dataset/soundtrack_music.html (дата обращения: 02.07.2024).
- Wang W. CNN based music emotion recognition. 2nd International Conference on Artificial Intelligence and Computer Engineering (ICAICE). Hangzhou. 2021. P. 190-195.
- Hizlisoy S., Yildirim S., Tufekci Z. Music emotion recognition using convolutional long short term memory deep neural networks. Engineering Science and Technology. 2021. V. 24. № 3. P. 760-767.
- Music Information Retrieval CISUC [Электронный ресурс] URL= http://mir.dei.uc.pt/downloads.html (дата обращения: 04.07.2024).
- Mukkamal J., Radhika Y. A Review: Music Feature Extraction from an Audio Signal. International Journal of Advanced Trends in Computer Science and Engineering. 2020. V. 9. № 2. P. 973–980.
- Нефедов В.И., Пугачев О.И., Егорова Е.В., Герасимов А.В. Применение цифровой обработки для фильтрации шума в звуковых сигналах // Нелинейный мир. 2009. Т. 7. № 11. С. 869–871.
- Щенникова, Е.В., Флерина Д.Ю., Навошин Р.Е. Препроцессинг речевых данных с целью обучения нейронной сети // Инженерный вестник Дона. 2023. Т. 105. № 9. С. 192–200.
- Russell J.A. A Circumplex Model of Affect. Journal of Personality and Social Psychology. 1980. V. 39. P. 1161–1178.
- Thayer R.E. The Biopsychology of Mood and Arousal. Oxford University Press. 1989. 247 p.
- Importance of Feature Scaling – scikit-learn 1.5.1 documentation [Электронный ресурс] URL= https://scikit-learn.org/stable/auto_examples/preprocessing/plot_scaling_importance.html (дата обращения: 04.07.2024).
- 6.3. Preprocessing data – scikit-learn 1.5.1 documentation [Электронный ресурс] URL= https://scikit-learn.org/stable/ modules/preprocessing.html#normalization (дата обращения: 04.07.2024).
- Wolpert D. Stacked Generalization. Neural Networks. 1992. V 5. P. 241–259.
- Popescu M.-C., Balas V., Perescu-Popescu L., Mastorakis N. Multilayer perceptron and neural networks. WSEAS Transactions on Circuits and Systems. 2009. V 8. P. 579–588.
- Чесалин А.Н. Применение каскадных алгоритмов классификации для совершенствования систем обнаружения вторжений // Нелинейный мир. 2022. Т. 20. № 1. С. 24–41.
- Theodoros E., Massimiliano P. Support Vector Machines: Theory and Applications. Machine Learning and Its Applications, Advanced Lectures. V. 2049. P. 249–257.
- Двойрис Л.И., Геращенков В.А. Подбор параметров ядра и параметра метода для нелинейных классификаторов // Радиотехника. 2013. № 2. С. 83–86.
- Breiman L. Bagging predictors. Machine Learninig. 1996. V. 24. P. 123–140.
- Бадокина Т.Е., Лизина О.М. Использование многофакторного анализа при выявлении детерминант российской теневой экономики // Russian Economic Bulletin. 2019. Т. 2. № 5. С. 67–72.
- Hand D.J., Christen P., Kirielle N. F*: an interpretable transformation of the F-measure. Mach Learn. 2021. V. 110. P. 451–456.
- Er M. B., Esi E. M. Music Emotion Recognition with Machine Learning Based on Audio Features. Computer Science. 2021. V. 6. № 3. P. 133–144.
- Panda R., Malheiro R., Paiva R.P. Novel Audio Features for Music Emotion Recognition. Transactions on Affective Computing. 2018. V. 11. № 4. P. 614–626.
- Koh E., Dubnov S. Comparison and analysis of deep audio embeddings for music emotion recognition. CEUR Workshop Proceedings. V. 2897. P. 15–22.

