350 руб
Журнал «Динамика сложных систем - XXI век» №3 за 2020 г.
Статья в номере:
Система извлечения информации из текста для метаграфовой базы знаний
DOI: 10.18127/j19997493-202003-0 -
УДК: 004.912
Авторы:

В.И. Терехов – к.т.н., доцент, 

МГТУ им. Н.Э. Баумана (Москва, Россия)

SPIN-код: не представлен

E-mail: terekchow@bmstu.ru 

А.И. Канев − аспирант,

МГТУ им. Н.Э. Баумана (Москва, Россия)

SPIN-код: не представлен

E-mail: kanevai@student.bmstu.ru

Аннотация:

Постановка проблемы. Существующие поисковые системы не позволяют успешно ответить на все запросы пользователя, поэтому для улучшения результатов поиска применяется машинное обучение и графы знаний. Но эти методы имеют ограничения. Для машинного обучения требуются значительные вычислительные мощности и объемы данных. Использование уже обученной системы в новой предметной области также сопровождается проблемой недостаточности данных для обучения. В то же время системы, основанные на правилах, имеют проблемы противоречивости данных и зацикливания. В настоящее время развиваются гибридные интеллектуальные системы, одной из составляющих которых являются метаграфовые системы. Метаграфы сочетают методы обработки знаний и мягкие вычисления. Применять метаграфы можно не только для информационного поиска, но и для классификации текстов, машинного перевода, а также обработки других видов информации, например, изображений. Важной и еще не решенной задачей остается наполнение этой системы информацией из текста. Для создания такой системы предлагается использовать пайплайн, состоящий из морфологического, синтаксического и контекстного анализа.

Цель. Разработать систему извлечения информации из текста для наполнения метаграфовой базы знаний и экспериментально оценить результаты ее работы.

Результаты. Получены результаты оценки системы анализа текста на наборе данных Open Corpora и даны рекомендации по ее дальнейшему развитию. Проведена оценка времени выполнения анализа, которая совпала с экспериментальными данными. Практическая значимость. Представленные особенности обработки данных, а также вопросы, связанные с реализацией системы извлечения информации из текста для метаграфовой базы знаний подтверждают необходимость использования синтаксического и контекстного анализа для улучшения работы этой системы.

Страницы: 57-66
Список источников
  1. Mousavi H. Mining Semantic Structures from Syntactic Structures in Free Text Documents // 2014 IEEE International Conference on Semantic Computing. 2014. DOI: 10.1109/ICSC.2014.31.
  2. Pizzi N., Krishnamoorthy R. Tactical Clinical Text Mining for Improved Patient Characterization // 2014 IEEE International Congress on Big Data. 2014. DOI: 10.1109/BigData.Congress.2014.101.
  3. Gong T., Tan C.L., Leong T.Y. Text Mining in Radiology Reports // 2008 Eighth IEEE International Conference on Data Mining. 2008. DOI: 10.1109/ICDM.2008.150.
  4. Анисимович К. В., Дружкин К. Ю., Зуев К. А., Минлос Ф. Р., Петрова М. А., Селегей В. П. Синтаксический и семантический партер, основанный на лингвистических технологиях ABBYY Compreno // XVIII Междунар. конф. «Диалог 2012». 2012.  С. 91−103.
  5. Sussna M. Word sense disambiguation for free-text indexing Using a Massive Semantic Network // Proceedings of the second international conference on Information and knowledge management. 1993. P 67-74. DOI: 10.1145/170088.170106.
  6. Shapiro S. Encyclopedia of Artificial Intelligence. Second edition. Wiley. 1992.
  7. Sutskever I., Vinyals O., Le Q.V. Sequence to Sequence Learning with Neural Networks // Advances in neural information processing systems. 2014.
  8. Cho K., van Merrienboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., Bengio Y. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1724-1734. DOI: 10.3115/v1/D14-1179.
  9. Radford A., Narasimhan K., Salimans T., Sutskever I. Improving Language Understanding by Generative Pre-Training. 2018. URL: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf (дата обращения 15.08.2020).
  10. Mikolov T., Le Q. V., Sutskever I. Exploiting Similarities among Languages for Machine Translation. 2013. URL: https://arxiv.org/pdf/1309.4168.pdf (дата обращения 15.08.2020).
  11. Nakagochi R., Kawamoto K., Sunayama W. Acquissition of Text-Mining Skills for Beginners Using TETDM // 13th International Conference on Data Mining Workshops. 2013. DOI: 10.1109/ICDMW.2013.49.
  12. Otsuka N., Matsushita M. Constructing Knowledge Using Exploratory Text Mining // Joint 7th International Conference on Soft Computing and Intelligent Systems (SCIS) and 15th International Symposium on Advanced Intelligent Systems (ISIS). 2014.  DOI: 10.1109/SCIS-ISIS.2014.7044806.
  13. Sunayama W. Knowledge Emergence using Total Environment for Text Data Mining // Joint 7th International Conference on Soft Computing and Intelligent Systems (SCIS) and 15th International Symposium on Advanced Intelligent Systems (ISIS). 2014.  DOI: 10.1109/SCIS-ISIS.2014.7044696.
  14. Черненький В.М., Гапанюк Ю.Е., Ревунков Г.И., Терехов В.И., Каганов Ю.Т. Метаграфовый подход для описания Гибридных Интеллектуальных Информационных Систем // Прикладная информатика. 2017. Т. 12. № 3(69). С. 57-79.
  15. Kanev A., Cunningham S., Terekhov V. Application of Formal Grammar in Text Mining and Construction of an Ontology // Internet Technologies and Applications (ITA 2017) // Proceedings of the 7th International Conference. 2017.  DOI: 10.1109/ITECHA.2017.8101910.
  16. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'03. 2003.
Дата поступления: 03.08.2020