Анализ методов извлечения информации из текстовых данных

350 руб

Журнал «Нейрокомпьютеры: разработка, применение» №3 за 2022 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j19998554-202203-02

УДК: 004.89

Ключевые слова: Естественный язык извлечение информации лексическо-синтаксический шаблон вероятностный подход машинное обучение natural language processing NLP

Авторы:

Г.С. Иванова1, П.А. Мартынюк2

1,2 МГТУ им. Н.Э. Баумана (Москва, Россия)

Аннотация:

Постановка проблемы. Увеличение объемов текстовой информации обусловливает необходимость создания систем для автоматической или автоматизированной обработки текстовых данных. На сегодняшний день для решения данной задачи применяют классические методы на основе правил извлечения и законов вероятности и статистики, а также принципиально новый метод с использованием нейросетевых моделей. Данная работа посвящена анализу различных методов извлечения информации из текстов на естественном языке.

Цель. Провести анализ существующих методов извлечения информации из текстовых данных с целью определения их специфики, достоинств и недостатков.

Результаты. Изложены основные идеи и концепции извлечения информации для каждого из анализируемых методов извлечения информации из текстовых данных, описаны сильные и слабые стороны этих методов, а также представлены их существующие реализации. Предложена идея совместного использования методов при создании систем обработки естественного языка с целью взаимной компенсации недостатков и повышения качества извлечения информации.

Практическая значимость. Результаты проведенного анализа существующих методов извлечения информации имеют практическую ценность для разработчиков систем обработки текстовых данных. Основная информация о каждом рассмотренном методе, предоставленная в кратком изложении, будет полезна специалистам в выборе модели (или моделей) для извлечения информации.

Страницы: 18-28

Для цитирования

Иванова Г.С., Мартынюк П.А. Анализ методов извлечения информации из текстовых данных // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 3. С. 18-27. DOI: https://doi.org/ 10.18127/j19998554-202203-02

Список источников

Шелманов А.О., Исаков В.А., Станкевич М.А., Смирнов И.В. Открытое извлечение информации из текстов. Ч. I. Постановка задачи и обзор методов // Искусственный интеллект и принятие решений. 2018. № 2. С. 47-61.
Malte A., Ratadiya P. Evolution of Transfer Learning in Natural Language Processing. // arXiv preprint arXiv. 1910.07370. 2019.
Минский М. Фреймы для представления знаний / Пер. с англ. О.Н. Гринбаума под ред. Ф.М. Кулакова. М.: Энергия. 1979. 151 с.
Андреев А.М., Березкин Д.В., Симаков К.В. Модель извлечения знаний из естественно-языковых текстов // Информационные технологии. 2007. № 12. С. 57-63.
Rau L.F. Extracting company names from text // Proceedings of the Seventh Conference on Artificial Intelligence Applications CAIA-92 (Volume I: Technical Papers). 1991. P. 29–32.
Скатов Д.С., Вдовина Н.А., Ливерко С.В., Окатьев В.В. Язык описания правил в системе лексического анализа ЕЯ-текстов DictaScope Tokenizer // Труды Международной конференции «Диалог». 2010. С. 442–449.
Окатьев В.В., Алексеев В.Е., Ерехинская Т.Н., Скатов Д.С. Синтаксический анализ естественного языка и библиотека синтаксического анализа DictaScope // Материалы конференции «Технологии Microsoft в теории и практике программирования» / Под ред. проф. В.П. Гергеля. Нижний Новгород: Изд-во Нижегород. гос. ун-та. 2009. С. 319-325.
Appelt D. The Common Pattern Specification Language // Technical report, SRI International, Artificial Intelligence Center. 1996. P. 23-30.
Трофимов И.В., Кормалев Д.А., Куршев Е.П., Сулейманова Е.А. Технология извлечения информации из текстов, основанная на знаниях // Программные продукты и системы. 2009. № 2. С. 62-66.
Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны в задачах автоматической обработки текста // Труды международной конференции «Диалог». 2007 C. 70-75.
Головков А.А., Иванова Г.С. Обработка геолокационной информации как практическая задача машинного обучения // Тезисы докладов 2-й Междунар. науч.-практич. конф. «Управление качеством инженерного образования. Возможности ВУЗов и потребности промышленности». М.: МГТУ им. Н.Э. Баумана. 2016. С. 38-39.
Иванова Г.С., Головков А.А., Умнов А.В. и др. Методы машинного обучения в задаче диагностирования рентгеновских маммологических снимков // Динамика сложных систем - XXI век. 2019. Т. 13. № 1. С. 25-32.
Иванова Г.С., Головков А.А., Тюрин В.А. Детектирование и классификация объектов на изображениях в инфракрасном спектре // Технологии инженерных и информационных систем. 2017. № 2. С. 81-90.
Zhang H. The optimality of naive Bayes // AA. 2004. V. 1. № 2. P. 3.
Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. V. 77. № 2. P. 257-286.
Mccallum A., Li W. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons // Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL. 2003. P. 188-191.
Ponomareva N, Rosso P, Pla F, Molina A. Conditional random fields vs. hidden markov models in a biomedical named entity recognition task // Proceedings of International Conference Recent Advances in Natural Language Processing (RANLP). 2007.
P. 479-483.
Liu Z., Lin Y., Sun M. Representation Learning for Natural Language Processing. Springer. 2020.
Ильвовский Д., Черняк Е. Глубинное обучение для автоматической обработки текстов // Открытые Системы. СУБД. [Электронное научное издание]. 2017. № 2. URL: https://www.osp.ru/os/2017/02/13052221 (дата обращения: 11.02.2022).
Кадермятова Л. М., Тутубалина Е. В. Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах // Электронные библиотеки. [Электронное научное издание]. 2020. Т. 23. № 5. С. 1026-1043. URL: https://elbib.ru/issue/view/109/31 (дата обращения: 17.02.2022).
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. V. 1 (Long and Short Papers). 2019. P. 4171–4186.
Wang A., Singh A., Michael J., Hill F., Levy O., Bowman S.R. GLUE: a multi-task benchmark and analysis platform for natural language understanding // ICLR 2019 Conference. Paper 1323. 2019. P. 20.
DeepPavlov’s documentation // Электронная документация библиотеки DeepPavlov. URL: http://docs.deeppavlov.ai/en/master/ index.html (дата обращения: 19.02.2022).
Burtsev M., Seliverstov A., Airapetyan R., Arkhipov M., Baymurzina D., Bushkov N., Gureenkova O., Khakhulin T., Kuratov Yu., Kuznetsov D., Litinsky A., Logacheva V., Lymar A., Malykh V., Petrov M., Polulyakh V., Pugachev L., Sorokin A., Vikhreva M., Zaynutdinov M.. DeepPavlov: Open-Source Library for Dialogue Systems // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. 2018. P. 122–127.

Дата поступления: 17.03.2022

Одобрена после рецензирования: 03.04.2022

Принята к публикации: 27.04.2022