350 руб
Журнал «Информационно-измерительные и управляющие системы» №12 за 2016 г.
Статья в номере:
Технологии аналитической обработки больших данных
Авторы:
Ю.А. Григорьев - д.т.н., профессор, кафедра «Системы обработки информации и управления», Московский государственный технический университет им. Н.Э. Баумана E-mail: grigorev@bmstu.ru
Аннотация:
Выполнен анализ нескольких технологий, используемых при аналитической обработке данных: OLAP, MapReduce/Hadoop, Spark. Установлено, что с увеличением числа измерений и количества агрегатных значений резко возрастает объем хранимых данных в OLAP, а при переходе на многомашинные комплексы существенно увеличивается стоимость их обработки. Рассмотрены принципы технологии MapReduce/Hadoop на примере соединения двух таблиц. Показано, что дальнейшие исследования в этой области велись в направлении устранения недостатков Hadoop и расширения возможностей технологии MapReduce. Выполнено сравнение систем Hadoop и Spark, рассмотрены их преимущества и недостатки.
Страницы: 59-68
Список источников

 

  1. Революция Big Data: Как извлечь необходимую информацию из «Больших Данных»? URL. http://www.statsoft.ru/products/Enterprise/big-data.php#top.
  2. Аналитический обзор рынка BigData. [Электронный ресурс] [https://habrahabr.ru/company/moex/blog/256747/] Проверено 12.06.2016.
  3. Бородулин А.Н. Программные средства бизнес-аналитики в системе управления современным предприятием // Экономическая наука сегодня: теория и практика: Материалы III Междунар. науч.-практ. конф. (Чебоксары, 26 дек. 2015 г.). С. 286-289.
  4. Ухаров А.О. Метод приближенной обработки запросов в системах оперативного анализа данных: Дисс. - канд. техн. наук. М.: МГТУ им. Н.Э. Баумана. 2011. 188 с.
  5. Codd E.F., Codd S.B., Salley C.T. Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate // Codd and Date. 1993. Т. 32.
  6. Федоров А., Елманова Н. Введение в OLAP // КомпьютерПресс М. 2000. № 3. С. 37-42.
  7. Pendse N. Database Explosion // Olap Report. 2006. URL. http://olapreport.com (дата обращения 11.11.2005).
  8. Хрусталев Е.М. Агрегация данных в OLAP-кубах // Interface Internet & software company. 2003. URL. http://www.interface.ru/misc/mut.htm (дата обращения 21.05.07).
  9. Sherman R. Data Integration Advisor: The Enterprise Data Warehouse Strikes Again. Part 1 // DM Review. 2006. URL.http://www.athena-solutions.com/library-dmreview.shtml (дата обращения 11.05.2006).
  10. Bc. Aleš Hejmalíček. Hadoop as an Extension of the Enterprise Data Warehouse. Masaryk university, Faculty of informatics, Brno, 2015.
  11. Jerzy Duda. Business intelligence and NoSQL databases // Information Systems in Management. 2012. V. 1 (1). P. 25-37.
  12. Sadalage, P., Fowler, M. NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence. Addison Wesley Professional. 2012.
  13. White T. Hadoop: The Definitive Guide, 4th Edition. O\'Reilly Media. 2015.
  14. Palla K. A Comparative Analysis of Join Algorithms Using the Hadoop Map/Reduce Framework. Master of Science School of Informatics University of Edinburgh. 2009. P 1-93.
  15. Zhou G., ZhuY., Wang G. Cache Conscious Star-Join in MapReduce Environments. Cloud-I \'13 Proceedings of the 2nd International Workshop on Cloud Intelligence, August 26. 2013.
  16. Григорьев Ю.А., Пролетарская В.А. Сравнение методов обработки запросов к хранилищу данных по технологии MapReduce // Информатика и системы управления. 2016. № 1. С. 3-13.
  17. Feng Li, Beng Chin Ooi, M. Tamer Özsu, Sai Wu. Distributed data management using MapReduce // Journal ACM Computing Surveys (CSUR). 2014. V. 46. Is. 3. Article № 31.
  18. Huai Y., Chauhan A., Gates A. et al. Major Technical Advancements in Apache Hive, VLDB, 2012.
  19. Асташин В. Hadoop, Apache Spark или Storm: какой движок выбрать? // Интернет-издание mebius.io. URL. https://mebius.io/practice/hadoop-apache-spark-or-storm
  20. Shi J., Qiu Y., Minhas U.F., Jiao L., Wang C., Reinwald B., Ozcan F. Clash of the titans: Mapreduce vs. spark for large scale data analytics // Proceedings of the VLDB Endowment. 2015. V. 8. № 13. P. 2110-2121.
  21. Захария М., Венделл П., Конвински Э., Карау Х. Изучаем Spark. Молниеносный анализ данных. М.: ДМК Пресс. 2015. 304 с.
  22. Чувыров Е. Большие данные - Обработка данных и машинное обучение в Spark. URL. https://msdn.microsoft.com/ru-ru/magazine/mt694087.aspx
  23. Шурига Л. Оптимизация заданий Apache Spark. Ч. 1. URL. http://datareview.info/article/optimizatsiya-zadaniy-apache-spark-chast-1/.
  24. Велихов П. Apache Spark: что там под капотом - URL. https://habrahabr.ru/post/251507/.
  25. Zinoviev A. 10 причин раздражаться при использовании Apache Spark. URL. http://zaleslaw.blogspot.ru/2015/11/10-reasons-angry-about-spark.html.
  26. Сербул А. Apache Spark в «боевых» проектах - опыт выживания. URL. http://www.pvsm.ru/programmirovanie/106404.
  27. Демин А. Почему Spark отнюдь не так хорош. URL. https://www.youtube.com/watch-v=oeoirw_SRPw.