350 руб
Журнал «Динамика сложных систем - XXI век» №5 за 2025 г.
Статья в номере:
Исследование распределения слов в текстах на разных языках
Тип статьи: научная статья
DOI: 10.18127/j19997493-202505-03
УДК: 004.912
Авторы:

А.И. Канев1, К.С. Мышенков2, С.В. Панюкова3, Се Цзявэнь4

1–4 Московский государственный технический университет имени Н.Э. Баумана (Москва, Россия)
1 aikanev@bmstu.ru, 2 myshenkovks@bmstu.ru, 3 Panyukova@bmstu.ru, 4 xz10052001@gmail.com

Аннотация:

Постановка проблемы. С увеличением межкультурного обмена литература переводится на множество языков, что делает сравнительное изучение различных версий произведений актуальным. Одним из таких произведений является роман «Приключения Оливера Твиста», который имеет различные версии на английском, русском и китайском языках. Ключевая особенность китайского языка – отсутствие пробелов между отдельными словами, поэтому существует дополнительная задача сегментации слов.

Цель. Провести статистический анализ частотности слов в трёх версиях романа с использованием формул Шеннона и Хартли. Это позволит изучить распределение слов и информационную сложность текста в разных языках, а также отдельно произвести сравнение двух версий для китайского языка: с сегментацией слов и без нее.

Результаты. В ходе исследования были выявлены значительные различия в лексическом составе и частоте употребления слов в английской, русской и китайской версиях романа «Приключения Оливера Твиста». Английская версия продемонстрировала стабильность в частоте слов, в то время как русская версия показала большую изменчивость в использовании лексики. Китайская версия, в свою очередь, характеризуется богатым лексическим выбором: при использовании полного словаря энтропия информации оказалась высокой, тогда как при применении одиночных символов-иероглифов энтропия была значительно ниже. Результаты при сегментации слов в китайском языке оказались ближе к английскому и русскому языку, чем в варианте без сегментации.

Практическая значимость. Результаты исследования важны для лингвистики и теории перевода, а также для культурных исследований и разработки программного обеспечения для перевода. Статистический анализ позволяет лучше понять как различные языки передают информацию и поможет в создании более эффективных методов перевода и адаптации текстов.

Страницы: 20-28
Для цитирования

Канев А.И., Мышенков К.С., Панюкова С.В., Цзявэнь Се. Исследование распределения слов в текстах на разных языках // Динамика сложных систем. 2025. Т. 19. № 5. С. 20−28. DOI: 10.18127/j19997493-202505-03

Список источников
  1. Dickens Ch. Oliver Twist. Hertfordshire: Wordsworth Editions. 2000.
  2. Lupyan G., Dale R. Why Are There Different Languages? The Role of Adaptation in Linguistic Diversity, Trends in Cognitive Scien­ces. 2016. V. 20. № 9. P. 649–660. DOI 10.1016/j.tics.2016.07.005
  3. Shaw R.D. The Translation Context: Cultural Factors in Translation: Translation Review. 1987. № 23(1). P. 25–29. DOI 10.1080/ 07374836.1987.10523398
  4. Hông Phuong L., Thi Minh Huyên N., Roussanaly A. et al. A hybrid approach to word segmentation of Vietnamese texts. Language and Automata Theory and Applications: Second International Conference, LATA 2008, Spain, Tarragona, 2008, March 13–19, Revised Papers 2. Berlin, Heidelberg: Springer, 2008. P. 240–249.
  5. Meknavin S., Charoenpornsawat P., Kijsirikul B. Feature-based Thai word segmentation. Proceedings of Natural Language Processing Pacific Rim Symposium. 1997. V. 97. P. 41–46.
  6. Liu Qun. A review of Chinese lexical analysis and syntactic analysis techniques. Lectures of the 1st Student Symposium on Computational Linguistics (sWcL2002). Beijing, 2002.
  7. Chang P.C., Galley M., Manning C.D. Optimizing Chinese word segmentation for machine translation performance. Proceedings of the third workshop on statistical machine translation. 2008. P. 224–232.
  8. Xie C., Hu Z., Yang L. et al. Automatic Construction of Sentence Pattern Structure Treebank. Proceedings of the 21st Chinese National Conference on Computational Linguistics. 2022. P. 464–474.
  9. Qader W.A., Ameen M.M., Ahmed B.I. An Overview of Bag of Words; Importance, Implementation, Applications, and Challenges. 2019 International Engineering Conference (IEC), Iraq, Erbil. 2019. P. 200–204. DOI 10.1109/IEC47844.2019.8950616
  10. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing. Commun. ACM. 18.11.1975. P. 613–620. DOI 10.1145/361219.361220
  11. Dumais S.T. Latent Semantic Analysis. Annual Review of Information Science and Technology (ARIST). V. 38. P. 189–230.
  12. Qaiser S., Ali R. Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents. International Journal of Computer Applications. 2018. V. 181(1). P. 25–29. DOI 10.5120/ijca2018917395
  13. Ma L., Zhang Y. Using Word2Vec to process big text data. 2015 IEEE International Conference on Big Data (Big Data). USA, CA, Santa Clara, 2015, P. 2895–2897. DOI 10.1109/BigData.2015.7364114
  14. Danyal M.M., Khan S.S., Khan M. et al. Proposing sentiment analysis model based on BERT and XLNet for movie reviews. Multimedia tools and applications. 2024. V. 83(24). P. 64315–64339. DOI 10.1007/s11042-024-18156-5
  15. Black S., Biderman S., Hallahan E., Anthony Q. et al. GPT-NeoX-20B: An open-source autoregressive language model. 14.04.2022. arXiv:2204.06745. P. 1–42.
  16. Aditi, Shandilya S., Bansal N., Mala S. An Evaluation of Word Frequency Techniques for Text Summarization Using Sentiment Analysis Approach. 2020 10th International Conference on Cloud Computing, Data Science & Engineering (Confluence). India, Noida. 2020. P. 397–403. DOI 10.1109/Confluence47617.2020.9058139
  17. Grefenstette G. Tokenization. Text, Speech and Language Technology. 1999. V. 9. Syntactic Wordclass Tagging / H. van Halteren (ed.). Dordrecht: Springer. 1999. P. 117–133. DOI 10.1007/978-94-015-9273-4_9
  18. Steven B., Ewan K., Edward L. Natural Language Processing with Python. California: O'Reilly Media. 2009. 504 p.
  19. Hartley R.V.L. Transmission of Information. Bell System Technical Journal. 1928. V. 7(3). P. 535–563.
  20. Shannon C.E. A mathematical theory of communication. Bell System Technical Journal. 1948. V. 27(3). P. 379–423.
  21. Dickens Ch. Oliver Twist. Nanjing: Yilin Publishing House. 2010.
  22. Диккенс Ч. Приключения Оливера Твиста. М.: Художественная литература. 1976. 288 с.
Дата поступления: 30.09.2025
Одобрена после рецензирования: 20.10.2025
Принята к публикации: 20.11.2025