350 руб
Журнал «Информационно-измерительные и управляющие системы» №12 за 2016 г.
Статья в номере:
Технологии аналитической обработки больших данных
Авторы:
Ю.А. Григорьев - д.т.н., профессор, кафедра «Системы обработки информации и управления», Московский государственный технический университет им. Н.Э. Баумана
E-mail: grigorev@bmstu.ru
Аннотация:
Выполнен анализ нескольких технологий, используемых при аналитической обработке данных: OLAP, MapReduce/Hadoop, Spark. Установлено, что с увеличением числа измерений и количества агрегатных значений резко возрастает объем хранимых данных в OLAP, а при переходе на многомашинные комплексы существенно увеличивается стоимость их обработки. Рассмотрены принципы технологии MapReduce/Hadoop на примере соединения двух таблиц. Показано, что дальнейшие исследования в этой области велись в направлении устранения недостатков Hadoop и расширения возможностей технологии MapReduce. Выполнено сравнение систем Hadoop и Spark, рассмотрены их преимущества и недостатки.
Страницы: 59-68
Список источников
- Революция Big Data: Как извлечь необходимую информацию из «Больших Данных»? URL. http://www.statsoft.ru/products/Enterprise/big-data.php#top.
- Аналитический обзор рынка BigData. [Электронный ресурс] [https://habrahabr.ru/company/moex/blog/256747/] Проверено 12.06.2016.
- Бородулин А.Н. Программные средства бизнес-аналитики в системе управления современным предприятием // Экономическая наука сегодня: теория и практика: Материалы III Междунар. науч.-практ. конф. (Чебоксары, 26 дек. 2015 г.). С. 286-289.
- Ухаров А.О. Метод приближенной обработки запросов в системах оперативного анализа данных: Дисс. - канд. техн. наук. М.: МГТУ им. Н.Э. Баумана. 2011. 188 с.
- Codd E.F., Codd S.B., Salley C.T. Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate // Codd and Date. 1993. Т. 32.
- Федоров А., Елманова Н. Введение в OLAP // КомпьютерПресс М. 2000. № 3. С. 37-42.
- Pendse N. Database Explosion // Olap Report. 2006. URL. http://olapreport.com (дата обращения 11.11.2005).
- Хрусталев Е.М. Агрегация данных в OLAP-кубах // Interface Internet & software company. 2003. URL. http://www.interface.ru/misc/mut.htm (дата обращения 21.05.07).
- Sherman R. Data Integration Advisor: The Enterprise Data Warehouse Strikes Again. Part 1 // DM Review. 2006. URL.http://www.athena-solutions.com/library-dmreview.shtml (дата обращения 11.05.2006).
- Bc. Aleš Hejmalíček. Hadoop as an Extension of the Enterprise Data Warehouse. Masaryk university, Faculty of informatics, Brno, 2015.
- Jerzy Duda. Business intelligence and NoSQL databases // Information Systems in Management. 2012. V. 1 (1). P. 25-37.
- Sadalage, P., Fowler, M. NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence. Addison Wesley Professional. 2012.
- White T. Hadoop: The Definitive Guide, 4th Edition. O\'Reilly Media. 2015.
- Palla K. A Comparative Analysis of Join Algorithms Using the Hadoop Map/Reduce Framework. Master of Science School of Informatics University of Edinburgh. 2009. P 1-93.
- Zhou G., ZhuY., Wang G. Cache Conscious Star-Join in MapReduce Environments. Cloud-I \'13 Proceedings of the 2nd International Workshop on Cloud Intelligence, August 26. 2013.
- Григорьев Ю.А., Пролетарская В.А. Сравнение методов обработки запросов к хранилищу данных по технологии MapReduce // Информатика и системы управления. 2016. № 1. С. 3-13.
- Feng Li, Beng Chin Ooi, M. Tamer Özsu, Sai Wu. Distributed data management using MapReduce // Journal ACM Computing Surveys (CSUR). 2014. V. 46. Is. 3. Article № 31.
- Huai Y., Chauhan A., Gates A. et al. Major Technical Advancements in Apache Hive, VLDB, 2012.
- Асташин В. Hadoop, Apache Spark или Storm: какой движок выбрать? // Интернет-издание mebius.io. URL. https://mebius.io/practice/hadoop-apache-spark-or-storm
- Shi J., Qiu Y., Minhas U.F., Jiao L., Wang C., Reinwald B., Ozcan F. Clash of the titans: Mapreduce vs. spark for large scale data analytics // Proceedings of the VLDB Endowment. 2015. V. 8. № 13. P. 2110-2121.
- Захария М., Венделл П., Конвински Э., Карау Х. Изучаем Spark. Молниеносный анализ данных. М.: ДМК Пресс. 2015. 304 с.
- Чувыров Е. Большие данные - Обработка данных и машинное обучение в Spark. URL. https://msdn.microsoft.com/ru-ru/magazine/mt694087.aspx
- Шурига Л. Оптимизация заданий Apache Spark. Ч. 1. URL. http://datareview.info/article/optimizatsiya-zadaniy-apache-spark-chast-1/.
- Велихов П. Apache Spark: что там под капотом - URL. https://habrahabr.ru/post/251507/.
- Zinoviev A. 10 причин раздражаться при использовании Apache Spark. URL. http://zaleslaw.blogspot.ru/2015/11/10-reasons-angry-about-spark.html.
- Сербул А. Apache Spark в «боевых» проектах - опыт выживания. URL. http://www.pvsm.ru/programmirovanie/106404.
- Демин А. Почему Spark отнюдь не так хорош. URL. https://www.youtube.com/watch-v=oeoirw_SRPw.