К.В. Сазонов1, А.А. Макунин2
1,2 Военный университет радиоэлектроники (г. Череповец, Россия)
Постановка проблемы. Анализ контентного содержания используется для классификации текстовых сообщений на основе их контекста. В настоящее время проблема классового дисбаланса – одна из важных при оценивании текстовых сообщений сформированных из терминов двух или более языков. Под смешанным кодом в статье понимаются сообщения, состоящие из текста, сформированного из терминов двух или более языков. Классовый дисбаланс – частое явление в данных с таким смешанным кодом.
Цель. Сформировать комплексный подход к решению задачи распознавания контента текстовых сообщений в условиях дисбаланса классов в смешанном коде.
Результаты. Проведены эксперименты, которые показали, что проблему дисбаланса классов можно облегчить, удалив смешанные данные, не относящиеся к коду. Показано, что сочетание расстояния Левенштейна с методами выборки помогло увеличить F1-меру. Отмечено, что дальнейшая работа может быть направлена на улучшение оценки F1-меры путем поиска сильных методов извлечения признаков или гибридных подходов, которые могут помочь решить проблему дисбаланса класса, существующую в смешанных с кодом социальных текстовых данных.
Практическая значимость. В результате проведенных исследований предложено в качестве метода предварительной обработки смешанных данных использовать расстояние Левенштейна, что улучшило результаты, поскольку оно хорошо работало с выявлением вариантов орфографии, которые сохранялись в смешанных данных, написанных в социальных сетях.
Сазонов К.В., Макунин А.А. Проблемы контентного анализа текстовых сообщений со смешанным кодом // Электромагнитные волны и электронные системы. 2023. Т. 28. № 3. С. 38−45. DOI: https://doi.org/10.18127/j15604128-202303-05
- Chen Y., Xie J. Online Consumer Review: Word-of-Mouth as a New Element of Marketing Communication Mix // Management Science. 2008. V. 54. № 3. P. 477-491. DOI 10.1287/mnsc.1070.0810.
- Asif M., Ishtiaq A., Ahmad H., Aljuaid H., Shah J. Sentiment analysis of extremism in social media from textual information // Telematics and Informatics. 2020. V. 48. P. 101345. DOI 10.1016/j.tele.2020.101345.
- Nasukawa T., Yi D. Sentiment analysis: Capturing favorability using natural language processing // Proceedings of the 2nd international conference on Knowledge capture. Association for Computing Machinery. 2003. P. 70–77. DOI 10.1145/945645.945658.
- Волков А.С., Черненький М.В., Силантьева Е.Ю. Двухэтапная процедура нейросетевого анализа тональности текстов на русском языке // Динамика сложных систем – XXI век. 2021. Т. 15. № 4. С. 5–13. DOI 10.18127/j19997493-202104-01.
- Nguyen T., Nguyen L., Cao T. Sentiment analysis on medical text using combination of machine learning and SO-CAL scoring // 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems. 2017. P. 49–54. DOI 10.1109/IESYS.2017.8233560.
- Park D.-H., Lee J., Han I. The Effect of On-Line Consumer Reviews on Consumer Purchasing Intention: The Moderating Role of Involvement // International Journal of Electronic Commerce. V. 11. № 4. 2007. P. 125–148. DOI 10.2753/JEC1086-4415110405.
- Gonçalves P., Araújo M., Benevenuto F., Cha M. Comparing and combining sentiment analysis methods // Proceedings of the first ACM conference on Online social networks. 2013. P. 27–38. DOI 10.1145/2512938.2512951.
- Chen J.I.Z., Lai K. Machine Learning based Energy Management at Internet of Things Network Nodes // Journal of Trends in Computer Science and Smart Technology. 2020. V. 2. № 3. P. 127–133. DOI 10.36548/jtcsst.2020.3.001.
- Мительков Д.В., Новиков А.Ю. Усовершенствованный метод повышения точности отбора релевантных текстовых сообщений на основе выявления референциальной связности текстовых элементов // Наукоемкие технологии. 2015. Т. 16. № 12.
С. 62–66. - Duraipandian D.M. Performance Evaluation of Routing Algorithm for Manet Based on the Machine Learning Techniques // Journal of Trends in Computer Science and Smart Technology. 2019 V.1. № 1. P. 24–35. DOI 10.36548/jtcsst.2019.1.003.
- López V., Fernández A., García S., Palade V., Herrera F. An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics // Information Sciences. 2013. V. 250. P. 113–141.
- Haixiang G., Li Y., Shang J., Gu M., Yuanyue H., Bing G. Learning from class-imbalanced data: Review of methods and applications // Expert Systems with Applications. 2017. V. 73. P. 220–239. DOI 10.1016/j.eswa.2016.12.035.
- Li Y., Guo H., Zhang Q., Gu M., Yang J. Imbalanced text sentiment classification using universal and domain-specific knowledge // Knowledge-Based Systems. 2018. V. 160. P. 1–15. DOI 10.1016/j.knosys.2018.06.019.