И.И. Старков1, А.И. Власов2
1,2 МГТУ им. Н.Э. Баумана (Москва, Россия)
Постановка проблемы. Как известно, в системах выявления плагиата для определения уникальности текста часто используется алгоритм шинглов. Данный алгоритм не может определить контекст и тему исследуемого материала для того, чтобы исключить из проверки те слова, которые характерны для данной тематической области. Это может привести к ситуации, когда человек понимает, что уникальность статьи выше необходимого порога, а алгоритм, поскольку работа изобилует одинаковыми словами (терминами), посчитает её недостаточно уникальной. Поэтому необходимо применение методов машинного обучения в системах выявления плагиата с целью решения проблемы узкоспециализированных понятий.
Цель. Построить модель машинного обучения, определяющей характерные слова для выбранной тематической области, которые будут удаляться из статьи, и уже обработанный текст будет поступать на вход алгоритма шинглов.
Результаты. Описаны проблемы идентификации плагиата с позиции узкоспециализированных текстов. Приведен краткий обзор существующих систем по выявлению плагиата с отражением их сильных и слабых сторон. Рассмотрен алгоритм шинглов, предназначенный для обнаружения плагиата в текстовых работах. Разработана классификационная модель машинного обучения, которая будет определять, к какой теме относится статья, исходя из ее названия, чтобы в дальнейшем составить список слов, чаще всего встречающихся в статьях данной темы (не считая предлогов, союзов и т.п.). Приведены результаты работы данной модели, отраженные в соответствующих метриках качества моделей классификации. Даны рекомендации по улучшению разработанной модели.
Практическая значимость. Внедрение описанной модели машинного обучения в современные онлайн-сервисы, специализирующиеся на проверке текста на заимствования, уменьшит количество случаев, когда при проверке узкоспециализированных материалов у проверяемой работы оказывается низкая уникальность из-за использования узкоспециализированных терминов. При этом не придется тратить время на подбор синонимов к таким терминам там, где это не имеет смысла. Следовательно, к подобным сервисам возрастет пользовательский интерес.
Старков И.И., Власов А.В. Применение методов машинного обучения в системах выявления плагиата с целью решения проблемы узкоспециализированных понятий // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 6. С. 30-37. DOI: https://doi.org/10.18127/j19998554-202206-03
- Чиркин Е.С. Системы автоматизированной проверки на неправомерные заимствования // Вестник Тамбовского университета. Серия: Гуманитарные науки. 2013. № 12 (128). С. 164–174.
- Клюев М.А. Судебная защита авторского права в системе высшего образования: проблемы и перспективы // Университетское управление: практик и анализ. 2006. № 2. (45). С. 88–92.
- Чевтаева Л.Н. Интернет-пиратство: вчера и сегодня // Вестник Саратовского государственного технического университета. Серия: Философия, социология и культура. 2013. Т. 4. № 1 (73). С. 284–289.
- Уголовный кодекс Российской Федерации, ч.1, ст. 146 «Нарушение авторских и смежных прав».
- Андреев В.В., Гай В.Е., Тарасова Н.П., Самойлов А.А., Ермоленко Е.Д., Сатаев А.А. Разработка системы "Технический антиплагиат" для ВКР бакалавров // Научно-технический вестник Поволжья. 2022. № 2. С. 13–15.
- Шарапова Е.В. Сравнительный анализ сервисов проверки оригинальности текстов // Машиностроение и безопасность жизнедеятельности. 2019. № 1 (39). С. 48-51.
- Антиплагиат.ру – URL: https://www.antiplagiat.ru (дата обращения 24.05.2022)
- Text.ru – URL: https://text.ru (дата обращения 24.05.2022)
- eTXT.ru – URL: https://www.etxt.ru (дата обращения 24.05.2022)
- Антиплагиат.РГБ – URL: https://rgb.antiplagiat.ru (дата обращения 24.05.2022)
- Адвего – URL: https://advego.com (дата обращения 24.05.2022)
- Михеев М.Ю., Сомин Н.В., Галина И.В., Золотарев О.В., Козеренко Е.Б., Морозова Ю.И., Шарнин М.М. Фальштексты: классификация и методы опознания текстовых имитаций и документов с подменой авторства // Информатика и ее применения. 2014. Т. 8. № 4. С. 70–77.
- Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: исследование зависимостей. М.: Финансы и статистика. 1985.
- Prudius A.A., Karpunin A.A., Vlasov A.I. Analysis of Machine learning methods to improve efficiency of big data processing in Industry 4.0 // Journal of Physics: Conference Series. 2019. Article № 032065.
- Кондратив В.О., Демин А.А. Анализ перспектив квантового машинного обучения // Сб. трудов XIX Всерос. науч. конф. «Нейрокомпьютеры и их применение». 2021. С. 29–33.
- Кафтанников И.Л., Парсич А.В. Проблемы формирования обучающей выборки в задачах машинного обучения // Южно-Уральский государственный университет. 2016. 10 с.
- Федоровский А.Н, Костин М.Ю. Mail.ru на РОМИП-2005 // в Cб. «Труды РОМИП’2005» Труды третьего российского семинара по оценке методов информационного поиска. Под ред. И.С. Некрестьянова. СПб.: НИИ Химии СПбГУ. 2005. С. 106–124.
- Hastie T., Tibshirani R., Friedman J. Random Forests. Chapter 15. in: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer-Verlag. 2009. 746 p.