350 руб
Журнал «Системы высокой доступности» №3 за 2013 г.
Статья в номере:
Автоматизированная система Категорирования веб-сайтов для блокирования веб-страниц с неприемлемым содержимым
Авторы:
Д.В. Комашинский - аспирант, лаборатория проблем компьютерной безопасности, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН). E-mail: komashinskiy@comsec.spb.ru И.В. Котенко - зав. лабораторией, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН). E-mail: ivkote@comsec.spb.ru А.А. Чечулин - науч. сотрудник, лаборатория проблем компьютерной безопасности, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН). E-mail: chechulin@comsec.spb.ru А.В. Шоров - науч. сотрудник, лаборатория проблем компьютерной безопасности, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН). E-mail: ashorov@comsec.spb.ru
Аннотация:
Рассмотрена задача категорирования веб-сайтов, актуальная для блокирования веб-страниц с неприемлемым содержимым и методы анализа текста, html-тегов и изображений с помощью методов Data Mining. Предложены методы ана¬лиза сайтов, содержащих информацию на различных языках. Представлены архитектура и алгоритмы работы системы сбора, хранения и анализа данных, необходимых для классификации сайтов по определенным категориям. Приведены результаты экспериментов по анализу принадлежности набора сайтов к той или иной категории. Выполнена оценка качества классификации.
Страницы: 119-127
Список источников

  1. Комашинский Д.В., Котенко И.В., Чечулин А.А.Категорирование веб-сайтов для блокирования веб-страниц с неприемлемым содержимым // Системы высокой доступности. 2011. № 2. С.102-106.
  2. Зозуля Ю.В., Котенко И.В. Блокирование Web-сайтов с неприемлемым содержимым на основании выявления их категорий // Материалы международной конференции - РусКрипто-2010?. 2010.
  3. Han J., Kamber M. Data Mining: Concepts and Techniques. Elsevier, Morgan Kaufman. 2006.
  4. Cooley R., Mobasher B., Srivastava J. Web Mining: Information and Pattern Discovery of the World Wide Web // Proceedings of the 9th International Conference on Tools with Artificial Intelligence. 1997. P. 558-567.
  5. Qi X., Davison B.D. Web Page Classification: Features and algorithms // ACM Computing Surveys (CSUR). 2009.
  6. Кузнецов Р.Ф. Классификатор веб-страниц на базе SVM-Multiclass // Труды РОМИП. 2006.
  7. Kleinberg J.M., Kumar R., Raghavan P., Rajagopalan S., Tomkins A.S. The Web as a Graph: Measurements, Models, and Methods // Lecture Notes in Computer Science. Springer. 1999. V. 1627. P. 1-17.
  8. Kuncheva L.Combining Pattern Classifiers: Methods and Algorithms. Wiley Interscience. 2004.
  9. Shibu S., Vishwakarma A., Bhargava N. A combination approach for Web Page Classification using Page Rank and Feature Selection Technique // International Journal of Computer Theory and Engineering. 2010. V. 2. № 6. P. 897-900.
  10. Patil A., Pawar B. Automated Classification of Web Sites using Naive Bayessian Algorithm // Proceedings of the International Multi-Conference of Engineers and Computer Scientists. 2012. V. 1.
  11. Jsoup. Java HTML Parser. http://jsoup.org/
  12. RapidMiner, http://rapid-i.com/content/view/181/190/
  13. Promt Translator. http://www.promt.com/
  14. Yandex.Translate API. http://api.yandex.com/translate/