Создание специальных корпусов текстов 1 на основе расширенной платформы TXM

Журнал «Системы высокой доступности» №3 за 2018 г.

Статья в номере:

Тип статьи: научная статья

DOI: 10.18127/j20729472-201803-13

УДК: 81’33: 519.76

Ключевые слова: корпусная лингвистика автоматический морфологический анализ платформа TXM анализ соответствий специфичность выявление экстремистских текстов

Авторы:

А.М. Лаврентьев – к.ф.н., Институт истории представлений и идей нового времени НЦНИ и Высшей нормальной школы Лиона (Лион, Франция)

E-mail: alexei.lavrentev@ens-lyon.fr

И.В. Смирнов – к.ф.-м.н., зав. отделом, ФИЦ «Информатика и управление» РАН (Москва) E-mail: ivs@isa.ru

М.И. Суворова – науч. сотрудник, ФИЦ «Информатика и управление» РАН (Москва)

E-mail: ananyeva@isa.ru

Ф.Н. Соловьев – науч. сотрудник, Институт физико-технической информатики (г. Протвино) E-mail: the0@yandex.ru

А.И. Фокина – студент, НИУ ВШЭ (Москва)

E-mail: aifokina@edu.hse.ru

А.М. Чеповский – д.т.н., профессор, НИУ ВШЭ (Москва) E-mail: achepovskiy@hse.ru

Аннотация:

Рассмотрено расширение платформы TXM для корпусного анализа. Предложено использовать выделение псевдооснов в словах текста на базе метода структурных схем и выявление именных групп в структуре текста для выделения подкорпусов по параметрам. Описаны результаты анализа корпуса экстремистских текстов.

Страницы: 76-81

Список источников

Ананьева М.И., Кобозева М.В., Соловьев Ф.Н., Поляков И.В., Чеповский А.М. О проблеме выявления экстремистской направленности в текстах // Вестник Новосибирского гос. ун-та. Сер.: Информационные технологии. Новосибирск: Новосибирский национальный исследовательский государственный университет. 2016. Т. 14. № 4. С. 5−13.
Ананьева М.И., Девяткин Д.А., Кобозева М.В., Смирнов И.В., Соловьев Ф.Н., Чеповский А.М. Исследование характеристик текстов противоправного содержания // Труды Института системного анализа РАН. М.: ФИЦ ИУ РАН. 2017. Т. 67. № 3. С. 86−97.
Болховитянов А.В., Чеповский А.М. Методы автоматического анализа словоформ // Информационные технологии. 2011. № 4(176). С. 24−29.
Зализняк А.А. Грамматический словарь русского языка. М.: Русский язык. 1977. 879 с.
Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. Изд. 2-е, перераб. М.: Национальный открытый университет «ИНТУИТ». 2015.
Benzécri J.-P. L’analyse des données: l’analyse des Correspondances. V. 2. 2nd ed. Paris: Dunod. 1979.
Egorova E., Chepovskiy A., Lavrentiev A. A structural pattern based method for automated morphological analysis of word forms in a natural language // Journal of Mathematical Sciences. M.: Plenum Publishers. 2016. V. 214. № 6. P. 802−813.
Heiden S. The TXM Platorm: Building Open-Source Textual Analysis Sofware Compatile with the TEI Encoding Scheme // 24th Pacific Asia Conference on Language, Information and Computation – PACLIC24 / Ed. by R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute for Digital Enhancement of Cognitive Development. Waseda University, Sendai, Japan. 2010. P. 389−398. URL = htp://halshs.archiies-ouiertes.fr/halshs-00549764.
Lafon P. Sur la variabilité de la fréquence des formes dans un corpus // Mots. 1980. № 1. P. 127−165.
Lê S., Josse J., & Husson F. FactoMineR: an R package for multivariate analysis // Journal of statistical software. 2008. № 25(1). P. 1−18.
Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees // Proc. of International Conference on New Methods in Language Processing. Manchester, UK. 1994. URL = http://www.cis.uni-muenchen.de/sschmid/tools/TreeTagger/data/tree-tagger1.pdf.

Дата поступления: 3 августа 2018 г.