С.С. Волков1, Д.А. Девяткин2, И.В. Соченков3, А.О. Шелманов4
1–3 Федеральный исследовательский центр «Информатика и управление» РАН (Москва, Россия)
1 Российский университет дружбы народов (Москва, Россия)
4 Институт искусственного интеллекта (Москва, Россия)
Постановка проблемы. Для обучения инструментов выявления признаков нетерпимости в сообщениях социальных сетей необходимы размеченные наборы сообщений, сбор которых – трудоемкая задача. Подобные наборы широко представлены в открытом доступе для английского и арабского языков, однако для русского языка практически отсутствуют.
Цель. Снизить трудоемкость формирования наборов сообщений на русском и английском языках для обучения методов выявления признаков религиозной нетерпимости в текстах.
Результаты работы. Представлен автоматизированный подход к формированию размеченных наборов сообщений социальных сетей. В рамках этого подхода объединены методы сфокусированного сбора сообщений социальных сетей и активного обучения. Показано, что при сборе сообщений с помощью методов активного обучения осуществляется пошаговая коррекция их разметки и дообучение классификатора, применяемого для фильтрации нерелевантных текстов.
Практическая значимость. Разработанный подход позволяет одновременно сформировать мультиязычный корпус сообщений, содержащих признаки религиозной нетерпимости, и обучить классификатор для выявления подобных текстов. Обученный классификатор может быть применен в составе прикладных систем анализа и мониторинга социальных сетей.
Волков С.С., Девяткин Д.А., Соченков И.В., Шелманов А.О. Автоматизированный подход к сбору сообщений социальных сетей, содержащих признаки религиозной нетерпимости // Системы высокой доступности. 2023. Т. 19. № 2. С. 70−80. DOI: https://doi.org/ 10.18127/j20729472-202302-06
