350 руб
Журнал «Динамика сложных систем - XXI век» №4 за 2016 г.
Статья в номере:
Классификация программ языковой идентификации текста
Авторы:
С.Н. Калегин - аспирант, начальник сектора НТО, ЗАО «МНИТИ» (Москва) E-mail: ksn@mniti.ru
Аннотация:
Отмечено, что с увеличением числа разноязычных неструктурированных данных в современном техногенном мире и развитием коммуникационных сред, таких как телевидение, Интернет и т.п., возрастает потребность в разработке систем языковой идентификации информации. Рассмотрена классификация программного обеспечения для определения языковой принадлежности текста на основе базовых идентификационных принципов и проведено сравнительное тестирование, выявившее соответствующие особенности каждого решения. Предположено, что это позволит разработчикам более осмысленно подходить к проектированию подобного программного обеспечения, а потребителям более осознанно его выбирать. Кроме того, градация языковых определителей может быть использована в учебно-методических и тематических пособиях для студентов технических факультетов, специалистов в области искусственного интеллекта и т.д., а также в процессе разработки новых систем языковой идентификации.
Страницы: 27-33
Список источников

 

  1. Beesley K.R. Language identifier: A Computer Program for Automatic Natural-Language Identification of On-line Text // 29th Annual Conference of the American Translators Association. Seattle. Washington. USA. 1988.
  2. Sibun P., Reynar J.C. Language Identification: Examining the Issues // 5th Symposium on Document Analysis and Information Retrieval (SDAIR-96). Las Vegas. Nevada. USA. 1996.
  3. Калегин С.Н. Автоматическое определение языка текста // Филоlogos. № 4 (27). Елец: ЕГУ им. И.А. Бунина. 2015. С. 21−28.
  4. Лукашевич Н.В. Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа. Дис. - докт. техн. наук. 05.25.05 / Москва. 2014.
  5. Amine A., Elberrichi Z., Simonet M. Automatic language identification: an alternative unsupervised approach using a new hybrid algorithm // International Journal of Computer Science and Applications, Technomathematics Research Foundation. 2010. V. 7. № 1.
  6. Almeida-Cruz Y., Estévez-Velarde S. y Piad-Morffis A. Detección de Idioma en Twitter // Revista Internacional de Gestión del Conocimiento y la Tecnología. V. 2 (3). 2014.
  7. Калегин С.Н. Экспериментальное исследование возможности автоматизации процесса языковой идентификации текста // Конференция «CNews FORUM 2016: Информационные технологии завтра». Москва. 2016.
  8. Калегин С.Н. Оценка эффективности методов определения языковой принадлежности неструктурированного текста и варианты их программной реализации // Междунар. конф. «CONCORT-2016». Нижний Новгород. 2016.
  9. Калегин С.Н. Способы определения языка текста // Филологические науки. Вопросы теории и практики. № 12 (54): В 4-х частях. Ч. II. Тамбов: Грамота. 2015. С. 84−89.
  10. Автоматический определитель языка текста «Guesser.ru». URL = http://guesser.ru/ (15.10.2016).
  11. Лозовюк А. PHPLangautodetect. URL = http://code.google.com/p/phplangautodetect/ (15.10.2016).
  12. Калегин С.Н. Программа «Модуль определения языка текста» («МОЯТ»). Свидетельство о государственной регистрации программы для ЭВМ № 2015663644 от 28.12.2015.
  13. Automatic language identifier. URL = http://labs.translated.net/ (15.10.2016).
  14. Автоматический определитель языка текста Полиглот 3000 (П3000). URL = http://www.polyglot3000.com/ (15.10.2016).
  15. Language Identifier by Henrik Falck. URL = http://whatlanguageisthis.com/ (15.10.2016).
  16. SILC RALI. URL = http://rali.iro.umontreal.ca/rali/ (15.10.2016).
  17. MS BingTranslator. URL = http://www.microsofttranslator.com/ (15.10.2016).
  18. Open Xerox Language Identifier. URL = http://open.xerox.com/Services/LanguageIdentifier/ (15.10.2016).
  19. EUreka ENgine. URL = http://eurekaengine.ru/, http://palitrumlab.ru/products (15.10.2016).
  20. Калегин С.Н. Важность выбора основного идентификационного принципа при проектировании языковых определителей // Междунар. конф. «Конвергентные когнитивно-информационные технологии». Москва. 2016.
  21. Калегин С.Н. Способы определения языковой принадлежности неструктурированного текста в мультиязычной информационной среде // Междунар. конф. «CONCORT-2016». Нижний Новгород. 2016.