350 руб
Журнал «Информационно-измерительные и управляющие системы» №12 за 2016 г.
Статья в номере:
Приближенная обработка запросов к большим многомерным хранилищам данных с прогнозируемой погрешностью
Авторы:
Ю.А. Григорьев - д.т.н., профессор, кафедра «Системы обработки информации и управления», Московский государственный технический университет им. Н.Э. Баумана
E-mail: grigorev@bmstu.ru
А.О. Ухаров - к.т.н., PH Informatics Corp. (Москва)
E-mail: oukharov@gmail.com
Аннотация:
Проанализированы существующие методы сжатия данных: выборки, гистограмм и вейвлет-преобразования. Показано, что метод вейвлет-преобразования обладает преимуществом, так как позволяет восстанавливать значения отдельных ячеек исходного хранилища. Предложен метод приближенной обработки запросов на основе вейвлет-преобразования, позволяющий оценить погрешность выполнения запросов к сжатому хранилищу, а также решить обратную задачу: для заданной погрешности выполнения запросов оценить требуемую степень сжатия хранилища данных. Показана приемлемая точность реализации запросов на примере поиска единичных значений и сумм, а также выигрыш по времени выполнения запросов к сжатому хранилищу в зависимости от степени сжатия и размерности обрабатываемых данных.
Страницы: 79-89
Список источников
- Chaudhuri S., Das G., Datar M. Overcoming Limitations of Sampling for Aggregation Queries // Proceedings of the 17th International Conference on Data Engineering. Washington. 2001. P. 534-542.
- Ganti V., Lee M., Ramakrishnan R. ICICLES: Self-Tuning Samples for Approximate Query Answering. Proceedings of International Conference on Very Large Databases // Proceedings of the 26th International Conference on Very Large Data Bases. San Francisco, 2000. P. 176-187.
- Gibbons P.B., Matias Y. New Sampling-Based Summary Statistics for Improving Approximate Query Answers // Proceedings of the 1998 ACM SIGMOD international conference on Management of data. New York. 1998. P. 331-342.
- Poosala V., Ioannidis Y. Selectivity Estimation Without the Attribute Value Independence Assumption // Proceedings of the 23rd International Conference on Very Large Data Bases. San Francisco. 1997. P. 486-495.
- Ioannidis Y. The History of Histograms // Proceedings of the 29th international conference on Very large data bases. Berlin. 2003. V. 27 (1). P. 19-30.
- Chakrabarti K., Garofalakis M., Rastogi R. Approximate query processing using wavelets // The VLDB Journal - The International Journal on Very Large Data Bases. 2001. V. 10(2). P. 199-223.
- Garofalakis M., Gibbons P.B. Probabilistic Wavelet Synopses // ACM Transactions on Database Systems (TODS). 2004. V. 29(1). P. 43-90.
- Garofalakis M., Kumar A. Deterministic Wavelet Thresholding for Maximum Error Metrics // Proceedings of the twenty-third ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems. New York. 2004. P. 166-176.
- Vitter J.S., Wang M. Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets // Proceedings of the 1999 ACM SIGMOD international conference on Management of data. New York, 1999. P. 193-204.
- Vitter J.F., Wang M., Iyer B. Data Cube Approximation and Histograms via Wavelets // Proceedings of the seventh international conference on Information and knowledge management. Bethesda. 1998. P. 96-104.
- Stollnitz E.J., DeRose T.D., Salesin D.H. Wavelets for Computer Graphics: Theory and Applications. Morgan Kaufmann Publishers. Inc., San Francisco. California. 1996.
- Welstead S. Fractal and Wavelet Image Compression Techniques. SpiePress. 1999.
- Burdakov A., Grigorev U., Ploutenko A., Ukharov A. Approximate Query Processing Using Wavelets in OLAP with Arbitrarily Sized Data and Bounded Errors // 24th Euromicro International Conference on Parallel, Distributed, and Network-Based Processing PDP 2016, Heraklion, Greece, February 2016.
- Central limit theorem: http://en.wikipedia.org/wiki/Central_limit_theorem#Lyapunov_CLT.