О.В. Зобов1, А.А. Спиридонов2
1, 2 АО «НПК «Криптонит» (Москва, Россия)
1 o.zobov@kryptonite.ru, 2 a.spiridonov@kryptonite.ru
Постановка проблемы. Трансформеры для изображений демонстрируют высокую эффективность в задачах компьютерного зрения благодаря способности учитывать глобальные зависимости между пространственно-удаленными областями изображения. Ключевая проблема аппаратного ускорения связана с наличием нелинейных операций, чувствительных к квантованию и потому малоэффективных на низкоразрядных вычислителях. Существующие ускорители на программируемых логических интегральных схемах используют целочисленные форматы с фиксированной точкой для матричных умножений, но выполняют нелинейные операции на центральном процессоре или в формате с плавающей точкой, что создает узкое место в части производительности из-за передачи промежуточных данных между процессором и ускорителем.
Цель. Разработать ускоритель вывода трансформеров для изображений на программируемой логике с полной реализацией всех операций на устройстве, с использованием низкоразрядного формата представления данных при сохранении высокой точности вывода трансформерной модели.
Результаты. Предложен ускоритель, использующий формат целых чисел с общей экспонентой (микромасштабируемый целочисленный формат) с адаптированной конфигурацией: 6-битные элементы, блоки по 16 элементов для активаций и 256 для весов. Разработаны специализированные аппроксимации на основе таблиц поиска для послойной нормализации (LayerNorm), функции активации с гауссовой ошибкой (GELU) и нормализованной экспоненциальной функции (Softmax). Достигнуто сокращение разрядности данных в 2,46 раза (с 16 до 6,5 бит на элемент), площади нелинейных операторов в 8–13 раз, ускорение в 92 раза относительно 16-битного формата с плавающей точкой (Float16) и в 1,9 раза относительно эталонных 8-битных целочисленных решений (Int8) на программируемой логике при потере точности классификации не более 1% на наборе данных ImageNet.
Практическая значимость. Предложенный подход обеспечивает производительность 500 изображений в секунду на платформе Alveo U250, что позволяет использовать трансформеры для изображений в приложениях реального времени (автономные транспортные средства, видеонаблюдение, медицинская диагностика). Он применим к широкому классу трансформерных архитектур для задач компьютерного зрения и обработки естественного языка.
Зобов О.В., Спиридонов А.А. Аппаратный ускоритель вывода трансформера для изображений на программируемой логике с использованием микромасштабируемого целочисленного формата // Нейрокомпьютеры: разработка, применение. 2026. Т. 28. № 2. С. 5–20. DOI: https://doi.org/10.18127/j19998554-202602-01
- Dosovitskiy A., Beyer L., Kolesnikov A. et al. An image is worth 16x16 words: Transformers for image recognition at scale // International Conference on Learning Representations (ICLR). 2021.
- Touvron H., Cord M., Douze M. et al. Training data-efficient image transformers & distillation through attention // Proceedings of the 38th International Conference on Machine Learning (ICML). 2021. V. 139. P. 10347–10357.
- Deng J., Dong W., Socher R. et al. ImageNet: A large-scale hierarchical image database // 2009 IEEE Conference on Computer Vision and Pattern Recognition. 2009. P. 248–255.
- Darvish Rouhani B., Zhao R., Klinefelter A. et al. Pushing the limits of narrow precision inferencing at cloud scale with Microsoft floating point // Advances in Neural Information Processing Systems (NeurIPS). 2020. V. 33. P. 22292–22303.
- Open compute project. OCP microscaling formats (MX) specification version 1.0. 2023 [Электронный ресурс] / URL: https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf (дата обращения: 08.11.2024).
- Liu Z., Wang Y., Han K. et al. Post-training quantization for vision transformer // Advances in Neural Information Processing Systems (NeurIPS). 2021. V. 34. P. 28092–28103.
- Lin J., Tang J., Tang H. et al. FQ-ViT: Post-training quantization for fully quantized vision transformer // International Journal of Computer Vision. 2022. V. 130. № 12. P. 3091–3108.
- Li Z., Gu Q. I-ViT: Integer-only quantization for efficient vision transformer inference // IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 17174–17185.
- Yuan Z., Xue C., Chen Y. et al. PTQ4ViT: Post-training quantization framework for vision transformers with twin uniform quantization // European Conference on Computer Vision (ECCV). 2022. P. 191–207.
- Li Y., Wei Y., Yan J. et al. PSAQ-ViT V2: Towards accurate and general data-free quantization for vision transformers // IEEE Transactions on Neural Networks and Learning Systems. 2024. V. 35. № 4. P. 4654–4667.
- Zhong Y., Huang L., Chen C., Wang Y. Data-free quantization via mixed-precision compensation without fine-tuning // Neural Computing and Applications. 2023. V. 35. P. 15067–15082.
- Han Y., Wang Y., Zhang C. et al. AutoViT-Acc: An FPGA-aware automatic acceleration framework for vision transformer with mixed-scheme quantization // 2023 60th ACM/IEEE Design Automation Conference (DAC). 2023. P. 1–6.
- Dong P., Kalantidis Y., Hsieh C.-J., Wang Y. HeatViT: Hardware-efficient adaptive token pruning for vision transformers // 2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA). 2023. P. 1–13.
- Huang M., Xu W., Wang J. et al. An integer-only and group-vector systolic accelerator for efficiently mapping vision transformer on edge // IEEE Transactions on Circuits and Systems I: Regular Papers. 2023. V. 70. № 4. P. 1439–1452.
- Wang K., Liu Z., Lin Y. et al. HAQ: Hardware-aware automated quantization with mixed precision // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 8612–8620.
- Xiao G., Lin J., Seznec M. et al. SmoothQuant: Accurate and efficient post-training quantization for large language models // ArXiv preprint arXiv:2211.10438. 2022.
- Frantar E., Ashkboos S., Hoefler T., Alistarh D. GPTQ: Accurate post-training quantization for generative pre-trained transformers // ArXiv preprint arXiv:2210.17323. 2022.
- Dettmers T., Lewis M., Belkada Y., Zettlemoyer L. LLM.int8(): 8-bit matrix multiplication for transformers at scale // ArXiv preprint arXiv:2208.07339. 2022.
- Yao Z., Aminabadi R.Y., Zhang M. et al. ZeroQuant: Efficient and affordable post-training quantization for large-scale transformers // ArXiv preprint arXiv:2206.01861. 2022.
- Zhang C., Zhao Y., Chen Y. et al. Revisiting block-based quantisation: What is important for sub-8-bit LLM inference? // ArXiv preprint arXiv:2310.05079. 2023.
- Song Z., Liu Z., Wang Y. et al. DRQ: Dynamic region-based quantization for deep neural network acceleration // 2020 ACM/IEEE 47th Annual International Symposium on Computer Architecture (ISCA). 2020. P. 474–487.
- Zadeh A.H., Edo I., Santana O.M. et al. Mokey: Enabling narrow fixed-point inference for out-of-the-box floating-point transformer models // Proceedings of the 49th Annual International Symposium on Computer Architecture. 2022. P. 876–892.
- Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need // Advances in Neural Information Processing Systems (NeurIPS). 2017. V. 30. P. 5998–6008.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT). 2019. P. 4171–4186.
- Radford A., Wu J., Child R. et al. Language models are unsupervised multitask learners // OpenAI blog. 2019. V. 1. № 8. P. 9.
- Paszke A., Gross S., Massa F. et al. PyTorch: An imperative style, high-performance deep learning library // Advances in Neural Information Processing Systems (NeurIPS). 2019. V. 32. P. 8024–8035.
- Wightman R. PyTorch image models. 2019 [Электронный ресурс] / URL: https://github.com/huggingface/pytorch-image-models (дата обращения: 08.11.2024).
- Xilinx Inc. Vivado design suite user guide: High-level synthesis (UG902, v2023.2). 2023 [Электронный ресурс] / URL: https://www. xilinx.com (дата обращения: 08.11.2024).
- Demin A., Vlasov A., Selivanov K. et al. Integration of embedded components into cyber-physical systems: Design, analysis, and applications // Artificial Intelligence and Digital Transformation. Lecture Notes in Information Systems and Organisation. 2025. V. 78. P. 207–221.
- Vlasov A., Gladkikh A., Kutaev K. Application of modern programming languages in solving the problem of emulator development for embedded systems // Artificial Intelligence Algorithm Design for Systems. CSOC 2024. Lecture Notes in Networks and Systems. 2024. V. 1120. P. 574–598.
- Yuldashev M.N., Vlasov A.I., Novikov A.N. Energy-efficient algorithm for classification of states of wireless sensor network using machine learning methods // Journal of Physics: Conference Series. 2018. V. 1015. № 032153.
- Zhalnin V.P., Zakharova A.S., Uzenkov D.A. et al. Configuration-making algorithm for the smart machine controller based on the Internet of Things concept // International Review of Electrical Engineering. 2019. V. 14. № 5. P. 375–384.

