350 руб
Журнал «Системы высокой доступности» №3 за 2014 г.
Статья в номере:
Среда интеграции больших неоднородных коллекций данных
Авторы:
В. И. Будзко - д.т.н., зам. директора по научной работе, ИПИ РАН. E-mail: vbudzko@ipiran.ru Л. А. Калиниченко - д.ф.-м.н., профессор, зав. лабораторией, ИПИ РАН. E-mail: leonidandk@gmail.com С. А. Ступников - к.т.н., ст. науч. сотрудник, ИПИ РАН. E-mail: ssa@ipi.ac.ru А. Е. Вовченко - к.т.н., ст. науч. сотрудник, ИПИ РАН. E-mail: alexey.vovchenko@gmail.com Д. О. Брюхов - к.т.н., ст. науч. сотрудник, ИПИ РАН. E-mail: brd@ipi.ac.ru Д. Ю. Ковалев - программист, ИПИ РАН. E-mail: dm.kovalev@gmail.com
Аннотация:
Рассмотрены принципы построения среды интеграции неоднородных коллекций данных различного вида (структурированных, слабоструктурированных и неструктурированных). Основная идея такого построения состоит в объединении возможностей технологии предметных посредников и свободно распространяемой платформы распределенного хранения и обработки данных Hadoop, а также системы организации реляционных хранилищ данных над Hadoop, в качестве которой могут использоваться платформы IBM Big SQL или Hive. Обсуждены методы разрешения сущностей (Entity Resolution) и слияния данных (Data Fusion) в контексте интеграции больших данных в среде Hadoop. Дан краткий обзор методов извлечения информации из текстов. Приведены примеры способов программирования методов извлечения информации из текстов на языке AQL и методов слияния данных на языке высокого уровня HIL. Рассмотрен пример задачи интеграции неоднородных коллекций данных в предлагаемой среде.
Страницы: 3-19
Список источников

  1. The Forth Paradigm: Data-Intensive Scientific Discovery. Eds. Tony Hey, Stewart Tansley, and Kristin Tolle. Redmond: Microsoft Research, 2009. URL: http://goo.gl/GqkDX1 (дата обращения: 13.08.2014).
  2. Kalinichenko L.A., Stupnikov S.A. OWL as Yet Another Data Model to be Integrated. Advances in Databases and Information Systems: Proc. II of the 15th East-European Conference. Vienna: Austrian Computer Society. 2011. P. 178-189.
  3. Скворцов Н.А. Отображение модели данных RDF в каноническую модель предметных посредников // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2013. Ярославль: Ярославский государственный университет им. П.Г. Демидова. 2013. С. 202-209.
  4. Ступников С.А. Отображение графовой модели данных в каноническую объектно-фреймовую информационную модель при создании систем интеграции неоднородных информационных ресурсов // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2013. Ярославль: Ярославский государственный университет им. П.Г. Демидова. 2013. С. 193-202.
  5. Ступников С.А. Унификация модели данных, основанной на многомерных массивах, при интеграции неоднородных информационных ресурсов // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2012. Переславль-Залесский: Университет города Переславля. 2012. С. 67-77.
  6. Скворцов Н.А. Отображение моделей данных NoSQL в объектные спецификации // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2012. Переславль-Залесский: Университет города Переславля. 2012. С. 78-87.
  7. Kalinichenko L.A., Stupnikov S.A., Martynov D.O. SYNTHESIS: a Language for Canonical Information Modeling and Mediator Definition for Problem Solving in Heterogeneous Information Resource Environments. Moscow: IPI RAN. 2007. 171 p.
  8. Kalinichenko L.A., Briukhov D.O., Martynov D.O., Skvortsov N.A., Stupnikov S.A. Mediation Framework for Enterprise Information System Infrastructures // Proc. of the 9th International Conference on Enterprise Information Systems ICEIS 2007. Funchal, 2007. Volume Databases and Information Systems Integration. P. 246-251.
  9. Ступников С.А., Вовченко А.Е. Комбинированная виртуально-материализованная среда интеграции больших неоднородных коллекций данных // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2016. Дубна: ОИЯИ. 2014.
  10. Вовченко А.Е., Калиниченко Л.А., Ковалев Д.Ю. Программирование методов разрешения сущностей и слияния данных при реализации ETL в среде Hadoop // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2016. Дубна: ОИЯИ. 2014.
  11. Брюхов Д.О., Скворцов Н.А. Извлечение информации из больших коллекций русскоязычных текстовых документов в среде Hadoop // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2016. Дубна: ОИЯИ. 2014.
  12. White T. Hadoop: The definitive guide. 3rd edition. O'Reilly Media. 2012.
  13. Saracco C.M., Jain U. What's the big deal about Big SQL - Introducing relational DBMS users to IBM's SQL technology for Hadoop. IBM DeveloperWorks. 2013. URL: http://www.ibm.com/developerworks/library/bd-bigsql/bd-bigsql-pdf.pdf (дата обращения: 13.08.2014).
  14. Capriolo E., Wampler D., Rutherglen J. Programming Hive Data Warehouse and Query Language for Hadoop. O'Reilly Media. 2012.
  15. Christen P. Data Matching - Concepts and techniques for record linkage, entity resolution, and duplicate detection. Data-Centric Systems and Applications. 2012.
  16. Wenfei Fan, Geerts F. Foundations of data quality management // Synthesis lectures on data management. 2012. № 29.
  17. Naumann F., Herschel M. An introduction to duplicate detection // Synthesis lectures on data management. 2010. № 3.
  18. Bleiholder J., Naumann F. Data Fusion. ACM Computing Survey. 2009.
  19. Вовченко А.Е. Рассредоточенная реализация приложений в среде предметных посредников: Дисс. ... канд. техн. наук по специальности 05.13.11. Москва: ИПИ РАН. 2012. 216 с.
  20. Ступников С.А., Скворцов Н.А., Будзко В.И., Захаров В.Н., Калиниченко Л.А. Методы унификации нетрадиционных моделей данных // Системы высокой доступности. 2014. Вып. 1. С. 18-39.
  21. Miner D. MapReduce design patterns: Building effective algorithms and analytics for hadoop and other systems. O'Reilly Media. 2012.
  22. IBM InfoSphere BigInsights Information Center. 2014. URL: http://pic.dhe.ibm.com/infocenter/bigins/v2r1/index.jsp (дата обращения: 13.08.2014).
  23. Annotation Query Language. URL: http://goo.gl/wJ6X1d (датаобращения: 13.08.2014).
  24. Beyer K.S., Ercegovac V., Gemulla R., Balmin A., Eltabakh M., Kanne C.-C., Ozcan F., Shekita E.J. Jaql: A scripting language for large scale semistructured data analysis. VLDB 2011.
  25. Introducing JSON. 2014. http://www.json.org/ (дата обращения: 13.08.2014).
  26. Hernández M., Koutrika G., Krishnamurthy R., Popa L., Wisnesky R. HIL: a high-level scripting language for entity integration // Proceedings of the 16th International Conference on Extending Database Technology EDBT. 2013. P. 549-560.
  27. The Neo4j Manual. 2014. http://goo.gl/cHiOGF(дата обращения: 13.08.2014).
  28. Sarawagi S. Information extraction // Foundations and Trends in Databases. 2008. V. 1. №3. P. 261-377.
  29. Cunningham H., Maynard D., Bontcheva K., Tablan V. Gate: A framework and graphical development environment for robust NLP tools and applications // Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics. 2002.
  30. Getoor L., Taskar B. (Eds.). Introduction to Statistical Relational Learning. MIT Press. 2007.
  31. Getoor L., Machanavajjhala A. Entity resolution for big data // 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Chicago: ACM SIGKDD. 2013.
  32. String metric. URL: http://en.wikipedia.org/wiki/String_metric(дата обращения: 13.08.2014).
  33. Adamic L.A., Adar E. Friends and neighbors on the Web // Social networks. 2003. V. 25. № 3. P. 211-230.
  34. Cochinwala M. et al. Efficient data reconciliation. Information Sciences. 2001.
  35. Christen P. Automatic record linkage using seeded nearest neighbour and support vector machine classification. KDD. 2008.
  36. Chen Z. et al. Exploiting context analysis for combining multiple entity resolution systems. SIGMOD. 2009.
  37. Gupta R., Sarawagi S. Answering Table Augmentaton Queries from Unstructured Lists on the Web. PVLDB. 2009. V. 2. № 1.
  38. Herzog T. et al. Data quality and record linkage techniques. Springer, 2007.
  39. Bellare K. et al. Active sampling for entity matching. KDD. 2012.
  40. Wenfei Fan. Dependencies revisited for improving data quality. PODS. 2008.
  41. Bhattacharya I., Getoor L. A latent dirichlet model for unsupervised entity resolution. SDM. 2007.
  42. Bleiholder J. Data fusion and conflict resolution in integrated information systems. Dissertation. Hasso-Plattner-Institut. 2010.
  43. Dong X.L., Naumann F. Data Fusion - Resolving data conflicts in Integration. VLDB. 2009.
  44. Rajaraman A., Ullman J.D. Integrating information by outerjoins and full disjunctions. PODS. 1996.
  45. Sarma A.D. et al. An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. CIKM. 2012
  46. Kolb L., Thor A., Rahm E. Dedoop: Efficient deduplication with Hadoop // Proceeding of the 38th Intl. Conference on Very Large Databases (VLDB). VLDBEndowment. 2012. V.5. № 12.