350 rub
Journal Information-measuring and Control Systems №3 for 2011 г.
Article in number:
The method of genetic maps for spam detection problem
Authors:
S. V. Korelov, L. Yu. Rotkov
Abstract:
Presently, everyone, who has a personal computer or uses an e-mail, faced with spam. We estimate the possibility of using the method of constructing genetic maps of texts for spam detection. The method of genetic maps is an algorithm of probabilistic identification and selection of genes of data sequences. It based on a sequential piecewise approximation of the original sequence by the use of minimal number of sequences. The criteria for assessing the applicability of this method for spam detection is the probability of an error of the spam skipping. The method of genetic maps has been implemented in the form of the program. In experiment as input texts the output (passed) spams-letters of antispam-system SpamAssassin are used. The block of the content-analysis functioning on the basis of a method of genetic maps, has allowed to reveal from 25 % to 90 % of the spams-letters which have passed through antispam-system SpamAssassin. Combined usage of antispam-system SpamAssassin and the block of content-analysis on the basis of genetic maps has allowed to reveal from 85 % to 98 % of spams-letters. Advantages of using of a method of genetic maps for spam detection problem are absence of restrictions on possibility of modification and creation of the new objects corresponding to spam. There are no restrictions as well on accumulation, tracing, constant update and optimization of genetic maps of spams-letters.
Pages: 72-75
References
  1. Спам [электронный ресурс]. Режим доступа: http://www.kaspersky.ru/spam, свободный (дата обращения: 12.12.2010).
  2. Гудкова Д., Наместникова М., Бондаренко Е.KasperskySecurityBulletin2009. Спам в 2009 году [электронный ресурс]. Режим доступа: http://www.securelist.com/ru/analysis/208050609/Kaspersky_Security_Bulletin_2009_Spam_v_2009_godu, свободный (дата обращения: 12.12.2010).
  3. Наместникова М. Спам в октябре 2010 года [электронный ресурс]. Режим доступа: http://www.securelist.com/ru/analysis/208050666/Spam_v_oktyabre_ 2010_goda, свободный (дата обращения: 12.12.2010).
  4. НП «РАЭК» [электронный ресурс]. Режим доступа: http://raec.ru/alpha/?uri=news&id=20100203, свободный (дата обращения: 12.12.2010).
  5. SenderID[электронный ресурс]. Режим доступа: http://www.microsoft.com/mscorp/safety/technologies/senderid/default.mspx, свободный (дата обращения: 12.12.2010).
  6. RFC 5585 DomainKeys Identified Mail (DKIM) Service Overview.
  7. RFC 4871 DomainKeys Identified Mail (DKIM) Signatures.
  8. Graham, P., A Plan for Spam [электронныйресурс]. Режим доступа: http://www.paulgraham.com/spam.html, свободный (дата обращения: 12.12.2010).
  9. Robinson, G., A statistical approach to the spam problem, Linux Journal Issue # 107, 2003 [электронныйресурс]. Режим доступа: http://www.linuxjournal.com/ article/6467, свободный (дата обращения: 12.12.2010).
  10. Broder, A., On the resemblance and containment of documents, in Proc. CompressionandComplexityofSequences, 1997 [электронный ресурс]. Режим доступа: http://gatekeeper.dec.com/ftp/pub/dec/SRC/publications/broder/positano-final-wpnums.pdf, свободный (дата обращения: 12.12.2010).
  11. Ilyinsky, S., Kuzmin, M., Melkov, A., Segalovich, I., An efficient method to detect duplicates of Web documents with the use of inverted index, WWW Conference 2002 [электронныйресурс]. Режим доступа: http://www2002.org/CDROM/poster/187, свободный (дата обращения: 12.12.2010).
  12. Chowdhury, A., Frieder, O., Grossman, D., McCabe, M., Collection statistics for fast duplicate document detection, ACM Transactions on Information Systems (TOIS), Vol. 20, Issue 2, April 2002 [электронныйресурс]. Режим доступа: http://citeseerx.ist.psu.edu/viewdoc/download-doi=10.1.1.5.3673&rep=rep1&type=pdf, свободный (дата обращения: 12.12.2010).
  13. Кирьянов К. Г. Генетический код и тексты: динамические и информационные модели сложных систем Н. Новгород: ТАЛАМ, 2002.
  14. Кирьянов К. Г. Выбор оптимальных базовых параметров источников экспериментальных данных при их идентификации // Тр. III Междунар. конф. «Идентификация систем и задачи управления SICPRO-04». М.: ИПУ РАН, 2004. C. 187-208.
  15. Шаров С. А. Частотный словарь. РосНИИ ИИ [электронный ресурс]. Режим доступа: www.artint.ru, свободный (дата обращения: 05.07.2010).
  16. Apache SpamAssassin Project [электронныйресурс]. Режим доступа: http://spamassassin.apache.org, свободный (дата обращения: 12.12.2010).