И.О. Шкоков1
1 AVIV Group Gmbh (Париж, Франция)
1 igor.shkokov@gmail.com
Постановка проблемы. Стремительный рост количества обрабатываемых данных в сфере электронной коммерции обуславливает возрастающие издержки для функционирования данного сектора экономики. Правильный выбор формата хранения и обработки данных напрямую влияет на производительность аналитических систем и принятие своевременных решений и является актуальной задачей для научного сообщества. Численное подтверждение корректного выбора формата хранения и обработки данных может сократить издержки на функционирование систем электронной коммерции.
Цель. Посредством численного эксперимента подсчитать, каким образом изменение формата хранения и обработки данных (csv, parquet или avro) влияет на производительность аналитических систем электронной коммерции, а именно: на объем дискового пространства, занимаемый данными, и скорость выполнения запросов на языке Structured Query Language.
Результаты. Проведены эксперименты с использованием набора данных RetailRocket, библиотеки DuckDB и языка программирования Python для имитации работы современных облачных хранилищ. Использованы пять типовых аналитических запросов к базам данных (агрегация событий, объединение таблиц, фильтрация и сортировка, оконные функции, мультитабличный анализ) с замером времени выполнения. Доказано явное преимущество колонко-ориентированного формата parquet, который показал ускорение исполнения запросов к данным вплоть до семи раз по сравнению с csv и обеспечил наилучшее сжатие (40,2% от исходного размера данных). Отмечено, что формат данных avro, напротив, проигрывает стандартному формату csv в среднем на 624,2% при незначительной экономии дискового пространства в 11,9%.
Практическая значимость. Результаты исследования могут быть полезны для сотрудников, осуществляющих аналитику и обработку данных в сфере электронной коммерции, и численно аргументируют выбор формата parquet для оптимизации хранения и ускорения времени обработки аналитических запросов.
Шкоков И.О. Оптимизация выбора формата хранения данных: эмпирическое сравнение производительности csv, avro и parquet в аналитических системах электронной коммерции // Нейрокомпьютеры: разработка, применение. 2026. Т. 28. № 3. С. 25–34. DOI: https://doi.org/10.18127/j19998554-202603-04
- Kitchens B., Dobolyi D., Li J., Abbasi A. Advanced customer analytics: Strategic value through integration of relationship-oriented big data // Journal of Management Information Systems. 2018. V. 35. № 2. P. 540–574. DOI: 10.1080/07421222.2018.1451957.
- Hashem I.A.T., Yaqoob I., Anuar N.B. et al. The rise of «big data» on cloud computing: Review and open research issues // Information Systems. 2015. V. 47. P. 98–115. DOI: 10.1016/j.is.2014.07.006.
- Mäs S., Henzen D., Bernard L. et al. Generic schema descriptions for comma-separated values files of environmental data // 21st AGILE Conference on Geo-information Science. 12-15 June 2018. Lund, Sweden. 2018. P. 558–565.
- Sreekanth S., Pramodhini A.S.R., Likita C.S. et al. Putting Avro into Hive // International Journal of Research. 2017. V. 4. № 5. URL: https://journals.pen2print.org/index.php/ijr/article/view/7377/0.
- Vohra D. Apache Parquet. In: Practical Hadoop Ecosystem. Berkeley, CA: Apress. 2016. P. 325–335. DOI: 10.1007/978-1-4842-2199-0_8.
- Wankhede K., Colabawalla B. Parquet compression in Windows with big data – An enhanced storage style // Third International Conference on Intelligent Communication Technologies and Virtual Mobile Networks (ICICV). Tirunelveli, India. 2021. P. 1244–1249. DOI: 10.1109/ICICV50876.2021.9388437.
- Баранов В.Г., Мисевич А.А., Севрюков А.А., Суслов Б.А., Севрюков М.А., Алипова Н.А. Применение методов интеллектуального анализа данных в информационно-аналитических системах мониторинга // Информационно-измерительные и управляющие системы. 2011. Т. 9. № 3. С. 38–42.
- Шкоков И.О. Методы обнаружения ошибок в потоковой информации современных реляционных баз данных технологии Structured Query Language в крупных организациях // Наукоемкие технологии. 2025. Т. 26. № 5. С. 17–25. DOI: https://doi.org/ 10.18127/j19998465-202505-02.
- Bhosale P. High-performance data storage: A comparative analysis of AVRO, Parquet, and ORC formats in modern data systems // ESP Journal of Engineering & Technology Advancements. 2024. V. 4. № 3. P. 165–170. DOI: 10.56472/25832646/JETA-V4I3P117.
- Nelluri S.R., Saldanha F.A.A. Mastering big data formats: ORC, Parquet, Avro, Iceberg, and the strategy of selection // International Journal of Computer Trends and Technology. 2025. V. 73. № 1. P. 44–50. DOI: 10.14445/22312803/IJCTT-V73I1P105.
- Bhosale P. Parquet’s columnar storage advantage: A case study in big data analytics // International Journal on Science and Technology (IJSAT). 2024. V. 15. № 2. P. 1–12.
- Plase D., Niedrite L., Taranovs R. A comparison of HDFS compact data formats: Avro versus Parquet // Mokslas – Lietuvos ateitis. 2017. V. 9. P. 267–276. DOI: 10.3846/mla.2017.1033.
- Belov V., Kosenkov A.N., Nikulchev E. Experimental characteristics study of data storage formats for data marts development within data lakes // Applied Sciences. 2021. V. 11. № 18. DOI: 10.3390/app11188651.
- Shivayogappa A., Shivashankar S. A comparison of HDFS file formats: Avro, Parquet and ORC // International Journal of Advanced Science and Technology. 2020. V. 29. P. 4665–4675. DOI: 10.5281/zenodo.7027910.
- Zykov R. Retailrocket recommender system dataset. 2022 [Electronic resource] / URL: https://www.kaggle.com/datasets/retailrocket/ ecommerce-dataset (visited on 08/08/2025).
- Raasveldt M., Mühleisen H. DuckDB: An embeddable analytical database // Proceedings of the 2019 International Conference on Management of Data (SIGMOD’19). New York, NY, USA: Association for Computing Machinery. 2019. P. 1981–1984. DOI: 10.1145/3299869.3320212.
- Silva Y.N., Almeida I., Queiroz M. SQL: From traditional databases to big data // Proceedings of the 47th ACM Technical Symposium on Computing Science Education. 2016. P. 413–418. DOI: 10.1145/2839509.2844560.

