350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №3 за 2019 г.
Статья в номере:
Модификация алгоритма идентификации и категоризации научных терминов с использованием нейронной сети
Тип статьи: научная статья
DOI: 10.18127/j19998554-201903-02
УДК: 004.89
Авторы:

В. В. Бахтин – аспирант, кафедра автоматики и телемеханики, Пермский государственный национальный исследовательский университет; программист-разработчик, ООО «Сателлит Инновация» (г. Пермь)

E-mail: bakhtin_94@bk.ru

Аннотация:

Постановка проблемы. В настоящее время широкое распространение получили технологии текстового майнинга, которые доказали свою эффективность при обработке юридических и медицинских документов, машинном переводе и интеллектуальном поиске. Актуальной задачей является разработка многоязычной междисциплинарной системы терминов, которая будет способствовать устранению двусмысленностей в рамках международной и междисциплинарной профессиональной коммуникации. Для решения данной задачи в статье рассматривается проект для автоматизированного построения терминосистем. TSBuilder (Term System Builder) был разработан в 2014 г. с использованием многослойного персептрона Розенблатта, который обучался с учителем. Система идентифицирует термины из 1–3 слов в текстах на естественном языке и жестко категоризирует их.

Цель. Улучшить алгоритм идентификации и классификации терминов из нескольких слов с использованием аппарата нейронной сети.

Результаты. Модифицирована программа, чтобы уменьшить жесткость категоризации, что привело текстовый майнинг в большее соответствие с человеческим мышлением. Расширен диапазон параметров (семантических, морфологических и синтаксических) для категоризации при снятии ограничения длины термина тремя словами. Использована свертка на непрерывной последовательности терминов, и представлены вероятности попадания термина в каждый из классов. Отмечено, что нейронная сеть не будет присваивать термину одну категорию, а даст N ответов (где N– число предопределенных классов), каждый из которых О  [0, 1] – вероятность принадлежности термина к данному классу.

Практическая значимость. Переход от многослойного персептрона к нейронной сети сверточного типа позволил категоризировать термины неограниченной длины. Благодаря нескольким внесенным в программу модификациям удалось сблизить процессы идентификации и категоризации терминов с человеческим мышлением.

Страницы: 14-19
Список источников
  1. Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain // Psychological Review. 1958. V. 65. № 6. P. 386-408. URL: http://dx.doi.org/10.1037/h0042519
  2. Macmillan dictionary [Электронный ресурс] / URL: https://www.macmillandictionary.com/dictionary/british/lemma (дата обращения: 30.05.2019).
  3. Bakhtin V., Isaeva E. Developing an algorithm for identification and categorization of scientific terms in natural language text through the elements of artificial intelligence // Proceedings of 14th International Scientific-Technical Conference on Actual Problems of Electronic Instrument Engineering (APEIE). Novosibirsk: 2018. P. 384–390.
  4. List of English stop words. XPO6: Blog of an enthusiast (AI, NLP, domaining and investments) [Электронный ресурс] / URL: http://xpo6.com/list-of-english-stop-words/ (дата обращения: 02.06.2018).
Дата поступления: 27 июня 2019 г.