350 rub
Journal Information-measuring and Control Systems №11 for 2012 г.
Article in number:
А distributed crawler for social networks based on Map/Reduce model
Authors:
A.V. Yakushev, L.J. Dijkstra, S.А. Mityagin
Abstract:
This paper describes system which is based on MapReduce model for gathering data (crawling) from social networks. System runs on a cluster of computers that are managed by Apache Hadoop and supports multiuser mode and allows for each client to gather data about different themes and to use different crawling policies. System was used for crawling data from Livejournal social network in which network of user-s friendship was analyzed and was discovered that it is scale-free network.
Pages: 47-53
References
  1. M E J. NewmanComplex Systems: A Survey // Gene. 2009. № I.
  2. Boccaletti S., Latora V., Moreno Y., Chavez M., Hwang D. Complex Networks: Structure and Dynamics // Physics Reports 424. February 2006. №. 4-5. P. 175-308.
  3. LämmelR.Google-s MapReduce Programming Model - Revisited // SCIENCE OF COMPUTER PROGRAMMING. 2007. V. 70. P. 1-30.
  4. WhiteT.Hadoop: The Definitive Guide // O'Reilly Media, Yahoo! Press. 2009. June 5.
  5. Michael M. et al. Scale-up x Scale-out: A Case Study using Nutch/Lucene. IPDPSIEEE. 2007. P. 1-8.
  6. Митягин С.А., Якушев А.В., Бухановский А.В Имитационное моделирование наркотизации населения по данным мониторинга социальных сетей // Журнал Современные исследования социальных проблем СИСП. 2012. № 2 (10). С. 133-151.
  7. Митягин С.А., Якушев А.В., Бухановский А.В., ЗахаровЮ.Н. Исследование социальных сетей в задаче моделирования наркотизации населения и противодействия незаконному обороту наркотиков // Вестник Санкт-Петербургского университета МВД России. 2012. №4 (56) (в печати).
  8. Бершадская Л.А., Биккулов А.С., Болгова Е.В., Чугунов А.В., Якушев А.В. Социальные сети и социометрические исследования: теоретические основания и практика использования автоматизированного инструментария изучения виртуальных сообществ // Информационные ресурсы России. 2012. № 4. C. 19-24.
  9. Newman M.E.J. Power laws, Pareto distributions and Zipf-s law // Contemporary Physics. 2005. V.46. P. 323-351.
  10. Clauset A., Shalizi C.R., and Newman M.E.J. Power-law distributions in empirical data // SIAM Review 2009. V. 51(4). P. 661-703.
  11. Андронов В.Г., Емельянов С.Г., Михайлов C.Н., Потапенко А.М.Основные направления системного решения задач региональной информатизации // Информационно-измерительные и управляющие системы. 2008. № 10. С. 7-12.
  12. Семенов А.В., Бухановский А.В. Метрологический анализ в социальных сетях // Известия вузов. Сер. Приборостроение. 2011. № 3.С. 85-87.