350 руб
Журнал «Системы высокой доступности» №3 за 2014 г.
Статья в номере:
Среда интеграции больших неоднородных коллекций данных
Ключевые слова:
интеграция данных
большие данные
платформы распределенного хранения и обработки данных
разрешение сущностей
слияние данных
предметные посредники
Авторы:
В. И. Будзко - д.т.н., зам. директора по научной работе, ИПИ РАН. E-mail: vbudzko@ipiran.ru
Л. А. Калиниченко - д.ф.-м.н., профессор, зав. лабораторией, ИПИ РАН. E-mail: leonidandk@gmail.com
С. А. Ступников - к.т.н., ст. науч. сотрудник, ИПИ РАН. E-mail: ssa@ipi.ac.ru
А. Е. Вовченко - к.т.н., ст. науч. сотрудник, ИПИ РАН. E-mail: alexey.vovchenko@gmail.com
Д. О. Брюхов - к.т.н., ст. науч. сотрудник, ИПИ РАН. E-mail: brd@ipi.ac.ru
Д. Ю. Ковалев - программист, ИПИ РАН. E-mail: dm.kovalev@gmail.com
Аннотация:
Рассмотрены принципы построения среды интеграции неоднородных коллекций данных различного вида (структурированных, слабоструктурированных и неструктурированных). Основная идея такого построения состоит в объединении возможностей технологии предметных посредников и свободно распространяемой платформы распределенного хранения и обработки данных Hadoop, а также системы организации реляционных хранилищ данных над Hadoop, в качестве которой могут использоваться платформы IBM Big SQL или Hive. Обсуждены методы разрешения сущностей (Entity Resolution) и слияния данных (Data Fusion) в контексте интеграции больших данных в среде Hadoop. Дан краткий обзор методов извлечения информации из текстов. Приведены примеры способов программирования методов извлечения информации из текстов на языке AQL и методов слияния данных на языке высокого уровня HIL. Рассмотрен пример задачи интеграции неоднородных коллекций данных в предлагаемой среде.
Страницы: 3-19
Список источников
- The Forth Paradigm: Data-Intensive Scientific Discovery. Eds. Tony Hey, Stewart Tansley, and Kristin Tolle. Redmond: Microsoft Research, 2009. URL: http://goo.gl/GqkDX1 (дата обращения: 13.08.2014).
- Kalinichenko L.A., Stupnikov S.A. OWL as Yet Another Data Model to be Integrated. Advances in Databases and Information Systems: Proc. II of the 15th East-European Conference. Vienna: Austrian Computer Society. 2011. P. 178-189.
- Скворцов Н.А. Отображение модели данных RDF в каноническую модель предметных посредников // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2013. Ярославль: Ярославский государственный университет им. П.Г. Демидова. 2013. С. 202-209.
- Ступников С.А. Отображение графовой модели данных в каноническую объектно-фреймовую информационную модель при создании систем интеграции неоднородных информационных ресурсов // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2013. Ярославль: Ярославский государственный университет им. П.Г. Демидова. 2013. С. 193-202.
- Ступников С.А. Унификация модели данных, основанной на многомерных массивах, при интеграции неоднородных информационных ресурсов // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2012. Переславль-Залесский: Университет города Переславля. 2012. С. 67-77.
- Скворцов Н.А. Отображение моделей данных NoSQL в объектные спецификации // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2012. Переславль-Залесский: Университет города Переславля. 2012. С. 78-87.
- Kalinichenko L.A., Stupnikov S.A., Martynov D.O. SYNTHESIS: a Language for Canonical Information Modeling and Mediator Definition for Problem Solving in Heterogeneous Information Resource Environments. Moscow: IPI RAN. 2007. 171 p.
- Kalinichenko L.A., Briukhov D.O., Martynov D.O., Skvortsov N.A., Stupnikov S.A. Mediation Framework for Enterprise Information System Infrastructures // Proc. of the 9th International Conference on Enterprise Information Systems ICEIS 2007. Funchal, 2007. Volume Databases and Information Systems Integration. P. 246-251.
- Ступников С.А., Вовченко А.Е. Комбинированная виртуально-материализованная среда интеграции больших неоднородных коллекций данных // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2016. Дубна: ОИЯИ. 2014.
- Вовченко А.Е., Калиниченко Л.А., Ковалев Д.Ю. Программирование методов разрешения сущностей и слияния данных при реализации ETL в среде Hadoop // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2016. Дубна: ОИЯИ. 2014.
- Брюхов Д.О., Скворцов Н.А. Извлечение информации из больших коллекций русскоязычных текстовых документов в среде Hadoop // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2016. Дубна: ОИЯИ. 2014.
- White T. Hadoop: The definitive guide. 3rd edition. O'Reilly Media. 2012.
- Saracco C.M., Jain U. What's the big deal about Big SQL - Introducing relational DBMS users to IBM's SQL technology for Hadoop. IBM DeveloperWorks. 2013. URL: http://www.ibm.com/developerworks/library/bd-bigsql/bd-bigsql-pdf.pdf (дата обращения: 13.08.2014).
- Capriolo E., Wampler D., Rutherglen J. Programming Hive Data Warehouse and Query Language for Hadoop. O'Reilly Media. 2012.
- Christen P. Data Matching - Concepts and techniques for record linkage, entity resolution, and duplicate detection. Data-Centric Systems and Applications. 2012.
- Wenfei Fan, Geerts F. Foundations of data quality management // Synthesis lectures on data management. 2012. № 29.
- Naumann F., Herschel M. An introduction to duplicate detection // Synthesis lectures on data management. 2010. № 3.
- Bleiholder J., Naumann F. Data Fusion. ACM Computing Survey. 2009.
- Вовченко А.Е. Рассредоточенная реализация приложений в среде предметных посредников: Дисс. ... канд. техн. наук по специальности 05.13.11. Москва: ИПИ РАН. 2012. 216 с.
- Ступников С.А., Скворцов Н.А., Будзко В.И., Захаров В.Н., Калиниченко Л.А. Методы унификации нетрадиционных моделей данных // Системы высокой доступности. 2014. Вып. 1. С. 18-39.
- Miner D. MapReduce design patterns: Building effective algorithms and analytics for hadoop and other systems. O'Reilly Media. 2012.
- IBM InfoSphere BigInsights Information Center. 2014. URL: http://pic.dhe.ibm.com/infocenter/bigins/v2r1/index.jsp (дата обращения: 13.08.2014).
- Annotation Query Language. URL: http://goo.gl/wJ6X1d (датаобращения: 13.08.2014).
- Beyer K.S., Ercegovac V., Gemulla R., Balmin A., Eltabakh M., Kanne C.-C., Ozcan F., Shekita E.J. Jaql: A scripting language for large scale semistructured data analysis. VLDB 2011.
- Introducing JSON. 2014. http://www.json.org/ (дата обращения: 13.08.2014).
- Hernández M., Koutrika G., Krishnamurthy R., Popa L., Wisnesky R. HIL: a high-level scripting language for entity integration // Proceedings of the 16th International Conference on Extending Database Technology EDBT. 2013. P. 549-560.
- The Neo4j Manual. 2014. http://goo.gl/cHiOGF(дата обращения: 13.08.2014).
- Sarawagi S. Information extraction // Foundations and Trends in Databases. 2008. V. 1. №3. P. 261-377.
- Cunningham H., Maynard D., Bontcheva K., Tablan V. Gate: A framework and graphical development environment for robust NLP tools and applications // Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics. 2002.
- Getoor L., Taskar B. (Eds.). Introduction to Statistical Relational Learning. MIT Press. 2007.
- Getoor L., Machanavajjhala A. Entity resolution for big data // 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Chicago: ACM SIGKDD. 2013.
- String metric. URL: http://en.wikipedia.org/wiki/String_metric(дата обращения: 13.08.2014).
- Adamic L.A., Adar E. Friends and neighbors on the Web // Social networks. 2003. V. 25. № 3. P. 211-230.
- Cochinwala M. et al. Efficient data reconciliation. Information Sciences. 2001.
- Christen P. Automatic record linkage using seeded nearest neighbour and support vector machine classification. KDD. 2008.
- Chen Z. et al. Exploiting context analysis for combining multiple entity resolution systems. SIGMOD. 2009.
- Gupta R., Sarawagi S. Answering Table Augmentaton Queries from Unstructured Lists on the Web. PVLDB. 2009. V. 2. № 1.
- Herzog T. et al. Data quality and record linkage techniques. Springer, 2007.
- Bellare K. et al. Active sampling for entity matching. KDD. 2012.
- Wenfei Fan. Dependencies revisited for improving data quality. PODS. 2008.
- Bhattacharya I., Getoor L. A latent dirichlet model for unsupervised entity resolution. SDM. 2007.
- Bleiholder J. Data fusion and conflict resolution in integrated information systems. Dissertation. Hasso-Plattner-Institut. 2010.
- Dong X.L., Naumann F. Data Fusion - Resolving data conflicts in Integration. VLDB. 2009.
- Rajaraman A., Ullman J.D. Integrating information by outerjoins and full disjunctions. PODS. 1996.
- Sarma A.D. et al. An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. CIKM. 2012
- Kolb L., Thor A., Rahm E. Dedoop: Efficient deduplication with Hadoop // Proceeding of the 38th Intl. Conference on Very Large Databases (VLDB). VLDBEndowment. 2012. V.5. № 12.