В.И. Терехов – к.т.н., доцент,
МГТУ им. Н.Э. Баумана (Москва, Россия)
SPIN-код: не представлен
E-mail: terekchow@bmstu.ru
А.И. Канев − аспирант,
МГТУ им. Н.Э. Баумана (Москва, Россия)
SPIN-код: не представлен
E-mail: kanevai@student.bmstu.ru
Постановка проблемы. Существующие поисковые системы не позволяют успешно ответить на все запросы пользователя, поэтому для улучшения результатов поиска применяется машинное обучение и графы знаний. Но эти методы имеют ограничения. Для машинного обучения требуются значительные вычислительные мощности и объемы данных. Использование уже обученной системы в новой предметной области также сопровождается проблемой недостаточности данных для обучения. В то же время системы, основанные на правилах, имеют проблемы противоречивости данных и зацикливания. В настоящее время развиваются гибридные интеллектуальные системы, одной из составляющих которых являются метаграфовые системы. Метаграфы сочетают методы обработки знаний и мягкие вычисления. Применять метаграфы можно не только для информационного поиска, но и для классификации текстов, машинного перевода, а также обработки других видов информации, например, изображений. Важной и еще не решенной задачей остается наполнение этой системы информацией из текста. Для создания такой системы предлагается использовать пайплайн, состоящий из морфологического, синтаксического и контекстного анализа.
Цель. Разработать систему извлечения информации из текста для наполнения метаграфовой базы знаний и экспериментально оценить результаты ее работы.
Результаты. Получены результаты оценки системы анализа текста на наборе данных Open Corpora и даны рекомендации по ее дальнейшему развитию. Проведена оценка времени выполнения анализа, которая совпала с экспериментальными данными. Практическая значимость. Представленные особенности обработки данных, а также вопросы, связанные с реализацией системы извлечения информации из текста для метаграфовой базы знаний подтверждают необходимость использования синтаксического и контекстного анализа для улучшения работы этой системы.
- Mousavi H. Mining Semantic Structures from Syntactic Structures in Free Text Documents // 2014 IEEE International Conference on Semantic Computing. 2014. DOI: 10.1109/ICSC.2014.31.
- Pizzi N., Krishnamoorthy R. Tactical Clinical Text Mining for Improved Patient Characterization // 2014 IEEE International Congress on Big Data. 2014. DOI: 10.1109/BigData.Congress.2014.101.
- Gong T., Tan C.L., Leong T.Y. Text Mining in Radiology Reports // 2008 Eighth IEEE International Conference on Data Mining. 2008. DOI: 10.1109/ICDM.2008.150.
- Анисимович К. В., Дружкин К. Ю., Зуев К. А., Минлос Ф. Р., Петрова М. А., Селегей В. П. Синтаксический и семантический партер, основанный на лингвистических технологиях ABBYY Compreno // XVIII Междунар. конф. «Диалог 2012». 2012. С. 91−103.
- Sussna M. Word sense disambiguation for free-text indexing Using a Massive Semantic Network // Proceedings of the second international conference on Information and knowledge management. 1993. P 67-74. DOI: 10.1145/170088.170106.
- Shapiro S. Encyclopedia of Artificial Intelligence. Second edition. Wiley. 1992.
- Sutskever I., Vinyals O., Le Q.V. Sequence to Sequence Learning with Neural Networks // Advances in neural information processing systems. 2014.
- Cho K., van Merrienboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., Bengio Y. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1724-1734. DOI: 10.3115/v1/D14-1179.
- Radford A., Narasimhan K., Salimans T., Sutskever I. Improving Language Understanding by Generative Pre-Training. 2018. URL: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf (дата обращения 15.08.2020).
- Mikolov T., Le Q. V., Sutskever I. Exploiting Similarities among Languages for Machine Translation. 2013. URL: https://arxiv.org/pdf/1309.4168.pdf (дата обращения 15.08.2020).
- Nakagochi R., Kawamoto K., Sunayama W. Acquissition of Text-Mining Skills for Beginners Using TETDM // 13th International Conference on Data Mining Workshops. 2013. DOI: 10.1109/ICDMW.2013.49.
- Otsuka N., Matsushita M. Constructing Knowledge Using Exploratory Text Mining // Joint 7th International Conference on Soft Computing and Intelligent Systems (SCIS) and 15th International Symposium on Advanced Intelligent Systems (ISIS). 2014. DOI: 10.1109/SCIS-ISIS.2014.7044806.
- Sunayama W. Knowledge Emergence using Total Environment for Text Data Mining // Joint 7th International Conference on Soft Computing and Intelligent Systems (SCIS) and 15th International Symposium on Advanced Intelligent Systems (ISIS). 2014. DOI: 10.1109/SCIS-ISIS.2014.7044696.
- Черненький В.М., Гапанюк Ю.Е., Ревунков Г.И., Терехов В.И., Каганов Ю.Т. Метаграфовый подход для описания Гибридных Интеллектуальных Информационных Систем // Прикладная информатика. 2017. Т. 12. № 3(69). С. 57-79.
- Kanev A., Cunningham S., Terekhov V. Application of Formal Grammar in Text Mining and Construction of an Ontology // Internet Technologies and Applications (ITA 2017) // Proceedings of the 7th International Conference. 2017. DOI: 10.1109/ITECHA.2017.8101910.
- Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'03. 2003.