М.А. Панов1, И.И. Ивановичев2
1,2 Уральский государственный экономический университет (г. Екатеринбург, Россия)
1 panov79@ya.ru, 2 Ivan0vi4ev.ivan@gmail.com
Постановка проблемы. Сайты социальных сетей, форумов, рекламные площадки с отзывами производителей и покупателей являются источниками полной и достоверной информации о степени актуальности и правдивости предлагаемых услуг и степени удовлетворенности потребителей качеством этих услуг. Однако для увеличения конверсии или, наоборот, для понижения репутации производителя пользователи прибегают к искусственному увеличению контента, используя автоматические средства формирования текстовых данных. В настоящей статье предлагается провести анализ текстовых больших данных с применением алгоритма машинного обучения Naive Bayes.
Цель. Разработать метод обработки, группировки и аннотирования материалов со справочно-информационных сайтов, используя алгоритм наивного байесовского классификатора, с целью выявления фальшивых отзывов.
Результаты. Проведен анализ отзывов пользователей. Показано, что наивный байесовский классификатор на основе обученных данных смог получить информацию о соотношении настоящих и ненастоящих (фальшивых) отзывов, написанных интернет-ботом на сайте. Отмечено, что использование классификаторов текста позволяет оперативно анализировать разнородные большие данные WEB-контента и является экономически эффективной технологией интеллектуальных систем. Установлено, что основным преимуществом классификатора является его обучение на реальных отзывах, взятых с отрытых интернет-источников, благодаря чему он показывает высокую точность при выявлении настоящих или ненастоящих отзывов в реальном мире.
Практическая значимость. В результате исследования получены практические инструменты для борьбы с фейковыми отзывами и повышения достоверности информации на справочно-информационных сайтах, что имеет высокое значение для бизнеса, потребителей и научного сообщества. Благодаря обучению на реальных данных и высокой точности самого классификатора, уже сейчас можно использовать предложенный метод в различных интернет-ресурсах для улучшения ситуации с фальшивыми отзывами в сети Интернет.
Панов М.А., Ивановичев И.И. Разработка метода обработки, группировки и аннотирования материалов со справочно-информационных сайтов с целью выявления фальшивых отзывов с применением алгоритма наивного байесовского классификатора // Нейрокомпьютеры: разработка, применение. 2023. T. 25. № 6. С. 13-26. DOI: https://doi.org/10.18127/j19998554-202306-02
- Аббакумов А.А., Сидоров Д.П., Шибайкин С.Д. Применение методов машинного обучения для анализа текстов при формировании нормативно-справочной информации // Научно-технический вестник Поволжья. 2019. № 11. С. 96–102.
- Гордеева Е.В., Кочкаров Р.А., Рылов А.А. Анализ задачи распознавания темы текста с помощью машинного обучения // Нейрокомпьютеры: разработка, применение. 2023. Т. 25. № 4. С. 7–15. DOI 10.18127/j19998554-202304-02.
- Аббакумов А.А., Сидоров Д.П., Шибайкин С.Д. Анализ применения методов машинного обучения компьютерных систем для повышения защищенности от мошеннических текстов // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2020. № 1. С. 29–40.
- Березкин Д.В., Ши Ж., Ли Т. Анализ методов машинного обучения для обнаружения мошеннических транзакций с банковскими картам // Динамика сложных систем – XXI век. 2021. Т. 15. № 2. С. 5–13. DOI 10.18127/j19997493-202102-01.
- Beyer M.A., Laney D. The importance of «big data»: a definition. Stamford, CT: Gartner. 2012.
- Величко Н.А., Митрейкин И.П. Технология Big Data. Анализ рынка Big Data // Синергия наук 2018. № 30. С. 937–943.
- Назаренко Ю.Л. Обзор технологии «большие данные» (Big Data) и программно-аппаратных средств, применяемых для их анализа и обработки // European Science. 2017. № 9(31). С. 25–30.
- Ghani N.A., Hamid S., Hashem I. A.T., Ahmed E. Social media big data analytics: A survey // Computers in Human Behavior. 2019. V. 101. P. 417–428.DOI 10.1016/j.chb.2018.08.039.
- Azretbergenova G.Zh., Syzdykova A.O. Application of Big Data in the Banking Sector of Kazakhstan // Экономическая серия Вестника ЕНУ им. Л.Н. Гумилева. 2020. № 4. С. 132–140. DOI 10.32523/2079-620X-2020-4-132-140.
- Mintarya L.N., Halim J.N.M., Angie C., Achmad S., Kurniawan A. Machine learning approaches in stock market prediction: A systematic literature review // Procedia Computer Science. 2023. V. 216. P. 96–102. DOI 10.1016/j.procs.2022.12.115.
- Пугачева С.Д., Игнатьев А.Е. Онлайн-маркетинг: проблемы и возможности // Наукосфера. 2021. № 2-1. С. 175–183.
- Müller-Hansen F., Callaghan M.W., Minx J.C. Text as big data: Develop codes of practice for rigorous computational text analysis in energy social science // Energy Research & Social Science. 2020. V. 70. P. 101691. DOI 10.1016/j.erss.2020.101691.
- Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. 2002. V. 34. № 1. P. 1–47. DOI 10.1145/505282.505283.
- Sahami M., Dumais S., Heckerman D., Horvitz E. A Bayesian approach to filtering junk e-mail // AAAI Conference on Artificial Intelligence. 1998. P. 55–62.
- Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. № 1. С. 85–99.
- Гулин В.В. Сравнительный анализ методов классификации текстовых документов // Вестник Московского энергетического института. 2011. № 6. С. 100–108.
- Kim H., Kim J., Kim J., Lim P. Towards perfect text classification with Wikipedia-based semantic Naïve Bayes learning // Neurocomputing. 2018. V. 315. P. 128–134. DOI 10.1016/J.NEUCOM.2018.07.002.
- Казанцев А.А., Прохоров М.В., Худякова П.С. Обзор подходов к классификации текстов актуальными методами // Экономика и качество систем связи. 2021. № 1(19). С. 57–67.
- Salehin I., Dip S.T., Talha I.M., Rayhan I., Nammi K.F. Impact on Human Mental Behavior after Pass through a Long Time Home Quarantine Using Machine Learning // International Journal of Education and Management Engineering. 2021. V. 11. № 1. P. 41–50. DOI 10.5815/ijeme.2021.01.05.
- Шанов С.В., Чупин П.Г., Афонин А.Ю. Применение байесовского классификатора для определения тематики текста // Моделирование, оптимизация и информационные технологии. 2018. Т. 6. № 1(20). С. 131–139.
- Таршхоева Ж.Т. Язык программирования Python. Библиотеки Python // Молодой ученый. 2021. № 5(347). С. 20–21.
- Gong Y., Liu G., Xue Y., Li R., Meng L. A survey on dataset quality in machine learning // Information and Software Technology. 2023. V. 162. P. 107268. DOI 10.1016/j.infsof.2023.107268.
- Монахов В.И., Севостьянов П.А. Большие данные. Задачи, методы и решения // Сб. науч. трудов «Современные технологии хранения, обработки и анализа больших данных». М.: ФГБОУ ВО «РГУ имени А.Н. Косыгина». 2021. С. 12–18.
- Крамаренко И.В., Галиченко Е.А. Сравнительный анализ подходов автоматического рубрицирования текста // Modern Economy Success. 2023. № 3. С. 62–70.
- Pandas documentation. [Электронный ресурс] – Режим доступа: https://pandas.pydata.org/docs/pandas.zip, дата обращения 05.06.2023.
- Уэс М. Python и анализ данных. Саратов: Профобразование. 2017. 482 с. ISBN 978-5-4488-0046-7.
- Ильичев В.Ю., Юрик Е.А. Анализ массивов данных с использованием библиотеки Pandas для Python // Научное обозрение. Технические науки. 2020. № 4. С. 41–45.
- Селиверстов Я.А., Чигур В.И., Сазанов А.М., Селиверстов С.А., Свистунова А.С. Разработка системы для тонового анализа отзывов пользователей портала «AUTOSTRADA.INFO/RU» // Труды СПИИРАН. 2019. Т. 18. № 2. С. 354–389. DOI 10.15622/sp.18.2.354-389.
- Кокорев Д.С., Степаненко Д.Б. Scikit-learn: машинное обучение в Python // Аллея науки. 2018. Т. 1. № 1(17). С. 834–838.