А.И. Канев1
1 Московский государственный технический университет имени Н.Э. Баумана (Москва, Россия)
1 aikanev@bmstu.ru
Постановка проблемы. В настоящее время большие языковые модели находят достаточно широкое применение: в повседневной жизни, для ответов на вопросы, машинного перевода и многих других задач. При этом чаще всего используются облачные сервисы, в которых запускаются модели с большим количеством параметров, требующие больших вычислительных ресурсов. При этом пользователи отправляют все свои данные по сети, что оказывается критичным в сф ерах медицины, финансов и др. Поэтому актуальным является иссле дование более легковесных моделей, которые можно запустить прямо на компьютере пользователя.
Цель. Исследовать возможности дистиллированных и квантованных моделей, запускаемых в браузере с помощью WebLLM.
Результаты. Выявлено, что дистиллированные квантованные модели способны давать ответы за время, сравнимое с популярными облачными сервисами. Такие модели показали хорошее качество в задаче машинного перевода. Установлено, что сами ответы моделей, запускаемых локально, генерируются на естественном языке и с одержат малое число грамматических ошибок, но при этом данные ответы по смыслу являются неверными, скорее, – это перефразирование вопросов. Рекомендовано для сохранения смысла вместе с вопросом подавать на вход модели отрывки документов, что требует применения таких технологий, как генерация текста, дополненная результатами поиска (RAG). Отмечено, что при использовании локальных моделей устройства сильно нагреваются, а это ограничивает их применение относительно короткими ответами без генерации очень больших текстов в течение длительного времени.
Практическая значимость. Результаты исследования важны для создания систем и приложений, в которых предъявляются требования к данным пользователя и ограничению их распространения по сети. Также эти результаты будут полезны в условиях ограниченной работы интернета, загрузки сети или в отсутствие подключения.
Канев А.И. Кроссплатформенная генерация текста на конечных устройствах с помощью WebLLM // Динамика сложных систем. 2026. Т. 20. № 2. С. 79−85. DOI: 10.18127/j19997493-202602-09
- Ефимова В.А. Методы контекстуальной генерации изображений в высоком разрешении в условиях ограниченности вычислительных мощностей и недостатка обучающих данных: дисс. канд. техн. наук. 2023.
- Dong C., Li T.Z., Xu K., Wang Z., Maldonado F., Sandler K., Landman B.A., Huo Y. Characterizing browser-based medical imaging AI with serverless edgecomputing: towardsaddressing clinicaldata securityconstraints. In Proceedings of SPIE – the International Society for Optical Engineering. Apr. 2023. V. 12469. P. 1246907.
- Shen H., Zafrir O., Dong B., Meng H., Ye X., Wang Z., Ding Y., Chang H., B oudoukh G., Wasserblat M. Fast distilbert on cpus. 2022. arXiv preprint arXiv:2211.07715.
- Ruan C.F., Qin Y., Zhou X., Lai R., Jin H., Dong Y., Hou B., Yu M.S., Zhai Y., Agarwal S., Cao H. WebLLM: A High-Performance In-Browser LLM Inference Engine. 2024. arXiv preprint arXiv:2412.15803.
- Tan J., Dou Z., Wang W., Wang M., Chen W., Wen J.R. Htmlrag: Html is better than plaintext for modelingretrieved knowledge in rag systems. In Proceedings of the ACM on Web Conference 2 0 2 Apr. 2025. P. 1733–1746.
- Wang Z.J., Chau D.H. MeMemo: on-deviceretrieval augmentation for private and personalized text generation. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. July 2024. P. 2765–2770.
- Qin R., Liu D., Xu C., Yan Z., Tan Z., Jia Z., Nassereldine A., Li J., Jiang M., Abbasi A., Xiong J. Empirical guidelines for deploying llms onto resource-constrained edge devices. ACM Transactions on Design Automation of Electronic Systems. 2025. V. 30 (5). P. 1–58.
- Канев А.И. Сравнение производительности моделей глубокого обучения при запуске на клиентском устройстве и в облаке // Нейрокомпьютеры: разработка, применение. 2023. Т. 25. № 6. С. 27–36.
- Chen Z., Ma Y., Shen H., Liu M. WeInfer: Unleashing the Power of WebGPU on LLM Inference in Web Browsers. In Proceedings of the ACM on Web Conference 2 0 2 Apr. 2025. P. 4264–4273. 1
- Гончаренко А.И. Высокопроизводительные нейронные сети глубокого обучения для устройств с низкими вычислительными ресурсами: дисс. канд. техн. наук. 2024. 1
- Salemi A., Zamani H. Evaluating retrieval quality in retrieval-augmented generation. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. July 2024. P. 2395–2400. 1
- Kolomichyk I.V., Dzitiev V.V., Kanev A.I. Information Retrieval System Based on the Knowledge Extraction. 2025 7th International Youth Conference on Radio Electronics, Electrical and Power Engineering (REEPE). Moscow. Russian Federation. 2025. P. 1– DOI 10.1109/REEPE63962.2025.10971026. 1
- Seemakhupt K., Liu S., Khan S. Edgerag: Online-indexed rag for edgedevices. 2024. arXiv preprint arXiv:2412.21023.

