А.И. Канев1, К.С. Мышенков2, С.В. Панюкова3, Се Цзявэнь4
1–4 Московский государственный технический университет имени Н.Э. Баумана (Москва, Россия)
1 aikanev@bmstu.ru, 2 myshenkovks@bmstu.ru, 3 Panyukova@bmstu.ru, 4 xz10052001@gmail.com
Постановка проблемы. С увеличением межкультурного обмена литература переводится на множество языков, что делает сравнительное изучение различных версий произведений актуальным. Одним из таких произведений является роман «Приключения Оливера Твиста», который имеет различные версии на английском, русском и китайском языках. Ключевая особенность китайского языка – отсутствие пробелов между отдельными словами, поэтому существует дополнительная задача сегментации слов.
Цель. Провести статистический анализ частотности слов в трёх версиях романа с использованием формул Шеннона и Хартли. Это позволит изучить распределение слов и информационную сложность текста в разных языках, а также отдельно произвести сравнение двух версий для китайского языка: с сегментацией слов и без нее.
Результаты. В ходе исследования были выявлены значительные различия в лексическом составе и частоте употребления слов в английской, русской и китайской версиях романа «Приключения Оливера Твиста». Английская версия продемонстрировала стабильность в частоте слов, в то время как русская версия показала большую изменчивость в использовании лексики. Китайская версия, в свою очередь, характеризуется богатым лексическим выбором: при использовании полного словаря энтропия информации оказалась высокой, тогда как при применении одиночных символов-иероглифов энтропия была значительно ниже. Результаты при сегментации слов в китайском языке оказались ближе к английскому и русскому языку, чем в варианте без сегментации.
Практическая значимость. Результаты исследования важны для лингвистики и теории перевода, а также для культурных исследований и разработки программного обеспечения для перевода. Статистический анализ позволяет лучше понять как различные языки передают информацию и поможет в создании более эффективных методов перевода и адаптации текстов.
Канев А.И., Мышенков К.С., Панюкова С.В., Цзявэнь Се. Исследование распределения слов в текстах на разных языках // Динамика сложных систем. 2025. Т. 19. № 5. С. 20−28. DOI: 10.18127/j19997493-202505-03
- Dickens Ch. Oliver Twist. Hertfordshire: Wordsworth Editions. 2000.
- Lupyan G., Dale R. Why Are There Different Languages? The Role of Adaptation in Linguistic Diversity, Trends in Cognitive Sciences. 2016. V. 20. № 9. P. 649–660. DOI 10.1016/j.tics.2016.07.005
- Shaw R.D. The Translation Context: Cultural Factors in Translation: Translation Review. 1987. № 23(1). P. 25–29. DOI 10.1080/ 07374836.1987.10523398
- Hông Phuong L., Thi Minh Huyên N., Roussanaly A. et al. A hybrid approach to word segmentation of Vietnamese texts. Language and Automata Theory and Applications: Second International Conference, LATA 2008, Spain, Tarragona, 2008, March 13–19, Revised Papers 2. Berlin, Heidelberg: Springer, 2008. P. 240–249.
- Meknavin S., Charoenpornsawat P., Kijsirikul B. Feature-based Thai word segmentation. Proceedings of Natural Language Processing Pacific Rim Symposium. 1997. V. 97. P. 41–46.
- Liu Qun. A review of Chinese lexical analysis and syntactic analysis techniques. Lectures of the 1st Student Symposium on Computational Linguistics (sWcL2002). Beijing, 2002.
- Chang P.C., Galley M., Manning C.D. Optimizing Chinese word segmentation for machine translation performance. Proceedings of the third workshop on statistical machine translation. 2008. P. 224–232.
- Xie C., Hu Z., Yang L. et al. Automatic Construction of Sentence Pattern Structure Treebank. Proceedings of the 21st Chinese National Conference on Computational Linguistics. 2022. P. 464–474.
- Qader W.A., Ameen M.M., Ahmed B.I. An Overview of Bag of Words; Importance, Implementation, Applications, and Challenges. 2019 International Engineering Conference (IEC), Iraq, Erbil. 2019. P. 200–204. DOI 10.1109/IEC47844.2019.8950616
- Salton G., Wong A., Yang C.S. A vector space model for automatic indexing. Commun. ACM. 18.11.1975. P. 613–620. DOI 10.1145/361219.361220
- Dumais S.T. Latent Semantic Analysis. Annual Review of Information Science and Technology (ARIST). V. 38. P. 189–230.
- Qaiser S., Ali R. Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents. International Journal of Computer Applications. 2018. V. 181(1). P. 25–29. DOI 10.5120/ijca2018917395
- Ma L., Zhang Y. Using Word2Vec to process big text data. 2015 IEEE International Conference on Big Data (Big Data). USA, CA, Santa Clara, 2015, P. 2895–2897. DOI 10.1109/BigData.2015.7364114
- Danyal M.M., Khan S.S., Khan M. et al. Proposing sentiment analysis model based on BERT and XLNet for movie reviews. Multimedia tools and applications. 2024. V. 83(24). P. 64315–64339. DOI 10.1007/s11042-024-18156-5
- Black S., Biderman S., Hallahan E., Anthony Q. et al. GPT-NeoX-20B: An open-source autoregressive language model. 14.04.2022. arXiv:2204.06745. P. 1–42.
- Aditi, Shandilya S., Bansal N., Mala S. An Evaluation of Word Frequency Techniques for Text Summarization Using Sentiment Analysis Approach. 2020 10th International Conference on Cloud Computing, Data Science & Engineering (Confluence). India, Noida. 2020. P. 397–403. DOI 10.1109/Confluence47617.2020.9058139
- Grefenstette G. Tokenization. Text, Speech and Language Technology. 1999. V. 9. Syntactic Wordclass Tagging / H. van Halteren (ed.). Dordrecht: Springer. 1999. P. 117–133. DOI 10.1007/978-94-015-9273-4_9
- Steven B., Ewan K., Edward L. Natural Language Processing with Python. California: O'Reilly Media. 2009. 504 p.
- Hartley R.V.L. Transmission of Information. Bell System Technical Journal. 1928. V. 7(3). P. 535–563.
- Shannon C.E. A mathematical theory of communication. Bell System Technical Journal. 1948. V. 27(3). P. 379–423.
- Dickens Ch. Oliver Twist. Nanjing: Yilin Publishing House. 2010.
- Диккенс Ч. Приключения Оливера Твиста. М.: Художественная литература. 1976. 288 с.

