Г.С. Иванова1, П.А. Мартынюк2
1–2 МГТУ им. Н.Э. Баумана (Москва, Россия)
Постановка проблемы. В настоящее время чаще возникает потребность во внедрении в программные системы средств, обеспечивающих возможность автоматической или автоматизированной обработки текстовых данных. Это связано с возрастающими темпами роста объема информации, представленной в форме текста, как в отдельных информационных системах, так и в глобальной сети Интернет. Развитие современных технологий машинного и глубокого обучения, в свою очередь, обусловило рост популярности нейросетевых моделей. Данная статья посвящена анализу нейросетевых моделей, применяемых для решения классических задач обработки текстовых данных на естественном языке (Natural language processing, NLP).
Цель. Провести анализ архитектур и принципов функционирования наиболее распространенных нейросетевых языковых моделей, выделить их сильные и слабые стороны, а также определить круг решаемых ими NLP-задач.
Результаты. По каждой из рассмотренных нейросетевых языковых моделей сформулированы особенности их архитектуры и принципы функционирования, выделены сильные и слабые стороны. Приведены зависимости между архитектурами моделей и кругом решаемых ими NLP-задач.
Практическая значимость. Результаты анализа имеют практическую ценность для разработчиков систем обработки текстовых данных. Представленная в статье информация о наиболее популярных нейросетевых моделях может помочь специалистам в выборе конкретной нейросетевой архитектуры.
Иванова Г.С., Мартынюк П.А. Анализ нейросетевых языковых моделей при решении задач обработки текстовых данных // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 2. С. 5-20. DOI: https://doi.org/10.18127/j19998554-202302-01
- Malte A., Ratadiya P. Evolution of Transfer Learning in Natural Language Processing // arXiv preprint arXiv. 1910.07370. 2019.
- Шелухин О.И., Костин Д.В. Классификация аномальных состояний компьютерных систем средствами интеллектуального анализа системных журналов // Нейрокомпьютеры: разработка, применение. 2020. Т. 22. № 1. С. 66–76. DOI 10.18127/j1999 8554-202001-07.
- Глазкова А.В. Сравнение нейросетевых моделей для классификации текстовых фрагментов, содержащих биографическую информацию // Программные продукты и системы. 2019. №2. С. 263–267.
- Созыкин А.В. Обзор методов обучения глубоких нейронных сетей // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2017. Т. 6. № 3. С. 28–59.
- Schuster M., Paliwal K.K. Bidirectional recurrent neural networks // Proceedings of the 1997 IEEE Transactions on Signal Processing. 1997. V. 45. №. 11. P. 2673-2681.
- Lipton Z.C., Berkowitz J., Elkan Ch. A Critical Review of Recurrent Neural Networks for Sequence Learning // arXiv preprint arXiv:1506.00019v4. 2015.
- Informatik F., Bengio Y., Frasconi P., Schmidhuber J. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. 2003. 15 p.
- Пустынный Я.Н. Решение проблемы исчезающего градиента с помощью нейронных сетей долгой краткосрочной памяти // Инновации и инвестиции. 2020. №2. С. 130–132.
- Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. V. 9. Is. 8. P.1735–1780.
- Gers F.A., Schmidhuber J., Cummins F. Learning to Forget: Continual Prediction with LSTM // Neural Computation. 2000. V. 12. Is. 10. P. 2451–2471.
- Gers F., Schmidhuber J. Recurrent nets that time and count // Proceedings of the International Joint Conference on Neural Networks. 2000. V. 3. P. 189–194.
- Cho K. et al. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1724–1734.
- Józefowicz R., Zaremba W., Sutskever I. An Empirical Exploration of Recurrent Network Architectures // Proceedings of the 32nd International Conference on International Conference on Machine Learning (ICML). 2015. V. 37. P. 2342–2350.
- Zhou G.B. et al. Minimal Gated Unit for Recurrent Neural Networks // International Journal of Automation and Computing. 2016. 13. 10.1007/s11633-016-1006-2.
- Sutskever I., Vinyals O., Le Q. Sequence to sequence learning with neural networks // Advances in neural information processing systems. 2014. P. 3104–3112.
- Thakur A. LSTM RNN in Keras: Examples of One-to-Many, Many-to-One & Many-to-Many // Weights & Biases. Machine learning experiment tracking, dataset versioning, and model evaluation. [Электронный ресурс]. – Режим доступа: https://wandb.ai/fully-connected, дата обращения: 01.10.2022.
- Peters M.E. et al. Deep Contextualized Word Representations // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018. V. 1. P. 2227–2237.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. V. 1. P. 4171–4186.
- Aitken K., Ramasesh V., Cao Yu., Maheswaranathan N. Understanding How Encoder-Decoder Architectures Attend // arXiv preprint arXiv:2110.15253. 2021.
- Bahdanau D., Cho K., Bengio Y. Neural machine translation by jointly learning to align and translate // arXiv preprint arXiv: 1409.0473. 2014.
- Vaswani A. et al. Attention is all you need // Advances in Neural Information Processing Systems. 2017. V. 30. P. 5998–6008.
- Alammar J. The Illustrated Transformer [Электронный ресурс]. – Режим доступа: http://jalammar.github.io/illustrated-transformer/, дата обращения: 05.10.2022.
- Hugging F. The AI community building the future [Электронный ресурс]. – Режим доступа: https://huggingface.co/, дата обращения: 05.10.2022.
- Emon E.A., Rahman S., Banarjee J., Das A.K., Mittra T. A Deep Learning Approach to Detect Abusive Bengali Text // Proceedings of the 7th International Conference on Smart Computing & Communications (ICSCC). 2019. P. 1–5.
- Merkx D., Frank S. Comparing Transformers and RNNs on predicting human sentence processing data // arXiv preprint arXiv: 2005.09471. 2020.
- Lakew S.M., Cettolo M., Federico M. A Comparison of Transformer and Recurrent Neural Networks on Multilingual Neural Machine Translation // Proceedings of the 27th International Conference on Computational Linguistics. 2018. P. 641–652.
- Pramodya A., Pushpananda R., Weerasinghe R. A Comparison of Transformer, Recurrent Neural Networks and SMT in Tamil to Sinhala MT // Proceedings of the 20th International Conference on Advances in ICT for Emerging Regions. 2020. P. 155–160.
- Karita Sh. et al. A Comparative Study on Transformer vs RNN in Speech Applications // Proceedings of the 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). 2019. P. 449–456.
- Merity S. Single Headed Attention RNN: Stop Thinking With Your Head // arXiv preprint arXiv:1911.11423. 2019.