350 руб
Журнал «Динамика сложных систем - XXI век» №1 за 2024 г.
Статья в номере:
Преодоление лингвистических барьеров в кодовых ассистентах: создание адаптера Qlora для улучшения поддержки русскоязычных инструкций по написанию кода
Тип статьи: научная статья
DOI: 10.18127/j19997493-202401-03
УДК: 004.032.26
Авторы:

Ц.Б. Пронин1, А.В. Волосова2, А.В. Остроух3, Ю.Н. Строгов4

1, 3, 4 Московский автомобильно-дорожный государственный технический университет (МАДИ) (Москва, Россия)
2 Московский государственный технический университет им. Н.Э. Баумана
(национальный исследовательский университет) (Москва, Россия)
1 caesarpr12@gmail.com, 2 volosova@bmstu.ru, 3 ostroukh@mail.ru, 4 zelkame@gmail.com

Аннотация:

Постановка проблемы. Решение задач, связанных с пониманием языка и использованием языковых моделей для программирования связано с необходимостью обширного переобучения этих моделей. Для решения данной проблемы адаптирована популярная языковая модель «zephyr-7b-beta» как модель высокого качества работы в задачах на английском языке для понимания русского языка.

Цель. рассмотреть расширение лингвистического и технического спектра «zephyr-7b-beta» за счет разработки модели-адаптера для понимания русского языка.

Результаты. Разработана модель-адаптер для понимания русского языка, расширяющая лингвистический и технический спектра языковой модели «zephyr-7b-beta». Решены задача дополнительного дообучения новыми инструкциями без потери возможности выполнять оригинальные инструкции, проблема изменения адаптером приоритета выдачи модели в пользу тех инструкций, которые были заложены на этапе дообучения. Предложено несколько способов для исключения факта изменения приоритета выдачи модели. Выполнена оценка производительности базовой модели с установленным адаптером, используя различные метрики, сравнивая ее с базовой моделью, а также с другими передовыми моделями в этой области.

Практическая ценность. Полученные авторами результаты показали значительное улучшение, как в задачах, связанных с написанием кода на Python, так и в обработке русского языка, подтверждая эффективность предложенного адаптера. Представленные результаты вносят вклад в создание ресурсо-эффективной модификации больших языковых моделей, в исследования в области машинного обучения и обработки естественного языка по созданию более универсальных моделей ИИ. Наблюдаемый потенциал моделей-адаптеров в повышении качества ответов в определенных областях без необходимости обширного переобучения, способствует удовлетворению растущего спроса на модели для многоязычной обработки естественного языка и генерации кода.

Страницы: 32-40
Для цитирования

Пронин Ц.Б., Волосова А.В., Остроух А.В., Строгов Ю.Н. Преодоление лингвистических барьеров в кодовых ассистентах: создание адаптера Qlora для улучшения поддержки русскоязычных инструкций по написанию кода // Динамика сложных систем. 2024. Т. 18. № 1. С. 32−40. DOI: 10.18127/j19997493-202401-03

Список источников
  1. Tunstall L., Beeching E., Lambert N., Rajani N., Rasul K., Belkada Y., Huang S., von Werra L., Fourrier C., Habib N., Sarrazin N. Zephyr: Direct Distillation of LM Alignment. arXiv preprint. 2023. DOI 10.48550/arXiv.2310.16944.
  2. Hu E.J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. LoRA: Low-Rank Adaptation of Large Language Models. arXiv preprint. 2021. DOI 10.48550/arXiv.2106.09685.
  3. Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. QLoRA: Efficient Finetuning of Quantized LLMs. arXiv preprint. 2023. DOI 10.48550/arXiv.2305.14314.
  4. Pronin C.B., Volosova A.V., Ostroukh A.V., Strogov Yu.N., Kurbatov V.V., Umarova A.S. Языковая модель: MexIvanov/zephyr-python-ru. 2023. URL: https://huggingface.co/MexIvanov/zephyr-python-ru.
  5. Волосова А.В. Технологии искусственного интеллекта в ULS-системах: Учеб. пособие для вузов. СПб.: Лань. 2022. 308 с.
  6. Набор данных HuggingFaceH4/CodeAlpaca_20K. 2023. URL: https://huggingface.co/datasets/HuggingFaceH4/CodeAlpaca_20K.
  7. Beeching Edward, Fourrier Clémentine, Habib Nathan, Han Sheon, Lambert Nathan, Rajani Nazneen, Sanseviero Omar, Tunstall Lewis, Wolf Thomas. Open LLM Leaderboard // Hugging Face. 2023. URL: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard.
  8. Бахман А.А., Васюнин М.А., Галкин В.А., Гапанюк Ю.Е. Подход к генерации текстов программ на основе нейросетевых алгоритмов // Динамика сложных систем. 2023. Т. 17. № 3. С. 58–63. DOI 10.18127/j19997493-202303-08.
  9. Волков А.С., Черненький М.В, Силантьева Е.Ю. Двухэтапная процедура нейросетевого анализа тональности текстов на русском языке // Динамика сложных систем. 2021. T. 15. № 4. С. 5–13. DOI 10.18127/j19997493-202104-01.
  10. Pronin C.B., Maksimychev O.I., Ostroukh A.V., Volosova A.V., Matukhina E.N. Creating Quantum Circuits for Training Perceptron Neural Networks on the Principles of Grover's Algorithm // 2022 Systems of Signals Generating and Processing in the Field of on Board Communications. 2022. p. 1–5. DOI 10.1109/IEEECONF53456.2022.9744279.
  11. Ostroukh A.V., Pronin C.B., Volosova A.V., Subbotin B.S., Smirnov P.I. Parametric Synthesis of Quantum Circuits for Training Perceptron Neural Networks // 2022 Intelligent Technologies and Electronic Devices in Vehicle and Road Transport Complex (TIRVED). 2022. p. 1–4. DOI 10.1109/TIRVED56496.2022.9965536.
  12. Волосова А.В. Использование тензорной модели для обработки неопределенности в сложных динамических системах // Computation Nanotechnology. 2023. Т. 10. № 1. С. 79–87. DOI 10.33693/2313-223X-2023-10-1-79-87.
Дата поступления: 29.01.2024
Одобрена после рецензирования: 08.02.2024
Принята к публикации: 15.02.2024