350 руб
Журнал «Наукоемкие технологии» №1 за 2023 г.
Статья в номере:
Применение методов машинного обучения в системах выявления плагиата с целью решения проблемы узкоспециализированных понятий
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j19998554-202206-03
УДК: 349
Авторы:

И.И. Старков1, А.И. Власов2

1,2 МГТУ им. Н.Э. Баумана (Москва, Россия)

Аннотация:

Постановка проблемы. Как известно, в системах выявления плагиата для определения уникальности текста часто используется алгоритм шинглов. Данный алгоритм не может определить контекст и тему исследуемого материала для того, чтобы исключить из проверки те слова, которые характерны для данной тематической области. Это может привести к ситуации, когда человек понимает, что уникальность статьи выше необходимого порога, а алгоритм, поскольку работа изобилует одинаковыми словами (терминами), посчитает её недостаточно уникальной. Поэтому необходимо применение методов машинного обучения в системах выявления плагиата с целью решения проблемы узкоспециализированных понятий.

Цель. Построить модель машинного обучения, определяющей характерные слова для выбранной тематической области, которые будут удаляться из статьи, и уже обработанный текст будет поступать на вход алгоритма шинглов.

Результаты. Описаны проблемы идентификации плагиата с позиции узкоспециализированных текстов. Приведен краткий обзор существующих систем по выявлению плагиата с отражением их сильных и слабых сторон. Рассмотрен алгоритм шинглов, предназначенный для обнаружения плагиата в текстовых работах. Разработана классификационная модель машинного обучения, которая будет определять, к какой теме относится статья, исходя из ее названия, чтобы в дальнейшем составить список слов, чаще всего встречающихся в статьях данной темы (не считая предлогов, союзов и т.п.). Приведены результаты работы данной модели, отраженные в соответствующих метриках качества моделей классификации. Даны рекомендации по улучшению разработанной модели.

Практическая значимость. Внедрение описанной модели машинного обучения в современные онлайн-сервисы, специализирующиеся на проверке текста на заимствования, уменьшит количество случаев, когда при проверке узкоспециализированных материалов у проверяемой работы оказывается низкая уникальность из-за использования узкоспециализированных терминов. При этом не придется тратить время на подбор синонимов к таким терминам там, где это не имеет смысла. Следовательно, к подобным сервисам возрастет пользовательский интерес.

Страницы: 69-76
Для цитирования

Старков И.И., Власов А.В. Применение методов машинного обучения в системах выявления плагиата с целью решения проблемы узкоспециализированных понятий // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 6. С. 30-37. DOI: https://doi.org/10.18127/j19998554-202206-03

Список источников
  1. Чиркин Е.С. Системы автоматизированной проверки на неправомерные заимствования // Вестник Тамбовского университета. Серия: Гуманитарные науки. 2013. № 12 (128). С. 164–174.
  2. Клюев М.А. Судебная защита авторского права в системе высшего образования: проблемы и перспективы // Университетское управление: практик и анализ. 2006. № 2. (45). С. 88–92.
  3. Чевтаева Л.Н. Интернет-пиратство: вчера и сегодня // Вестник Саратовского государственного технического университета. Серия: Философия, социология и культура. 2013. Т. 4. № 1 (73). С. 284–289.
  4. Уголовный кодекс Российской Федерации, ч.1, ст. 146 «Нарушение авторских и смежных прав».
  5. Андреев В.В., Гай В.Е., Тарасова Н.П., Самойлов А.А., Ермоленко Е.Д., Сатаев А.А. Разработка системы "Технический антиплагиат" для ВКР бакалавров // Научно-технический вестник Поволжья. 2022. № 2. С. 13–15.
  6. Шарапова Е.В. Сравнительный анализ сервисов проверки оригинальности текстов // Машиностроение и безопасность жизнедеятельности. 2019. № 1 (39). С. 48-51.
  7. Антиплагиат.ру – URL: https://www.antiplagiat.ru (дата обращения 24.05.2022)
  8. Text.ru – URL: https://text.ru (дата обращения 24.05.2022)
  9. eTXT.ru – URL: https://www.etxt.ru (дата обращения 24.05.2022)
  10. Антиплагиат.РГБ – URL: https://rgb.antiplagiat.ru (дата обращения 24.05.2022)
  11. Адвего – URL: https://advego.com (дата обращения 24.05.2022)
  12. Михеев М.Ю., Сомин Н.В., Галина И.В., Золотарев О.В., Козеренко Е.Б., Морозова Ю.И., Шарнин М.М. Фальштексты: классификация и методы опознания текстовых имитаций и документов с подменой авторства // Информатика и ее применения. 2014. Т. 8. № 4. С. 70–77.
  13. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: исследование зависимостей. М.: Финансы и статистика. 1985.
  14. Prudius A.A., Karpunin A.A., Vlasov A.I. Analysis of Machine learning methods to improve efficiency of big data processing in Industry 4.0 // Journal of Physics: Conference Series. 2019. Article № 032065.
  15. Кондратив В.О., Демин А.А. Анализ перспектив квантового машинного обучения // Сб. трудов XIX Всерос. науч. конф. «Нейрокомпьютеры и их применение». 2021. С. 29–33.
  16. Кафтанников И.Л., Парсич А.В. Проблемы формирования обучающей выборки в задачах машинного обучения // Южно-Уральский государственный университет. 2016. 10 с.
  17. Федоровский А.Н, Костин М.Ю. Mail.ru на РОМИП-2005 // в Cб. «Труды РОМИП’2005» Труды третьего российского семинара по оценке методов информационного поиска. Под ред. И.С. Некрестьянова. СПб.: НИИ Химии СПбГУ. 2005. С. 106–124.
  18. Hastie T., Tibshirani R., Friedman J. Random Forests. Chapter 15. in: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer-Verlag. 2009. 746 p.
Дата поступления: 04.10.2022
Одобрена после рецензирования: 20.10.2022
Принята к публикации: 22.11.2022