Методы оценки качества экспертов при верификации больших языковых моделей

Журнал «Нейрокомпьютеры: разработка, применение» №6 за 2025 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j19998554-202506-07

УДК: 004.9

Ключевые слова: Большие языковые модели человеческая оценка экспертная верификация согласованность разметчиков коэффици-ент Коэна внутриклассовая корреляция модель Дэвида-Скина надежность аннотации мета-оценка воспроизводимость экспериментов

Авторы:

Д. Тетеревенков1

1 Финансовый университет при Правительстве Российской Федерации (Москва, Россия)
1 249453@edu.fa.ru

Аннотация:

Постановка проблемы. В настоящее время человеческая оценка традиционно используется как «золотой стандарт» проверки качества текстов, генерируемых большими языковыми моделями (LLM). Однако сама по себе она подвержена субъективности, вариативности и систематическим ошибкам восприятия, что ставит под сомнение достоверность и воспроизводимость результатов верификации моделей.

Цель. Систематизировать и проанализировать современные подходы к оценке качества работы экспертов-аннотаторов, участвующих в верификации результатов больших языковых моделей, для повышения объективности и надежности человеческой оценки.

Результаты. Проанализированы основные источники ненадёжности экспертных суждений. Представлены и детально рассмотрены методы повышения достоверности человеческой оценки: многократная аннотация и расчёт коэффициентов согласия (κ Коэна, κ Флейсса, α Криппендорфа, ICC), использование контрольных («золотых») заданий, слепое тестирование, мета-оценка и статистический мониторинг работы оценщиков. Особое внимание уделено вероятностным моделям качества аннотаторов, таким как модель Дэвида-Скина.

Практическая значимость. Применение систематической калибровки и верификации экспертов является необходимым условием для обеспечения объективности и воспроизводимости экспериментов с участием человека в исследованиях по обработке естественного языка и оценке больших языковых моделей. Рассмотренные методы позволяют формализовать процесс человеческой оценки, минимизировать субъективные искажения и повысить надежность получаемых данных, что критически важно для корректного сравнения и развития LLM.

Страницы: 69-76

Для цитирования

Тетеревенков Д. Методы оценки качества экспертов при верификации больших языковых моделей // Нейрокомпьютеры: разработка, применение. 2025. Т. 27. № 6. С. 69−76. DOI: 10.18127/j19998554-202506-07

Список источников

Chiang C.-H., Lee H.-Y. Can Large Language Models Be an Alternative to Human Evaluations? Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023). Toronto, Canada, 2023. P. 15607–15631. DOI: 10.18653/v1/2023.acl-long.870. URL: [https://aclanthology.org/2023.acl-long.870/] (https://aclanthology.org/2023.acl-long.870/) (дата обращения: 01.10.2025).
Gao M. LLM‑based NLG Evaluation: Current Status and Challenges. Computational Linguistics. 2025. V. 51. № 2. URL: [https://direct.mit.edu/coli/article/51/2/661/128807/] (https://direct.mit.edu/coli/article/51/2/661/128807/) (дата обращения: 15.09.2025).
Tam T.Y.C., Chow T.Y. et al. A framework for human evaluation of large language models in healthcare derived from literature review. npj Digital Medicine. 2024. URL: [https://www.nature.com/articles/s41746-024-01258-7] (https://www.nature.com/articles/ s41746-024-01258-7) (дата обращения: 10.08.2025).
Anthropic. Challenges in evaluating AI systems. 2023. URL: [https://www.anthropic.com/research/evaluating-ai-systems] (https://www.anthropic.com/research/evaluating-ai-systems) (дата обращения: 03.10.2025).
Liu S., Wang H., Ma Z., Li X. How Humans Help LLMs: Assessing and Incentivizing Human Preference Annotators. arXiv:2502.06387. 2025. URL: [https://arxiv.org/abs/2502.06387] (https://arxiv.org/abs/2502.06387) (дата обращения: 10.10.2025).
Guo Z. et al. Evaluating Large Language Models: A Comprehensive Survey. arXiv:2310.19736. 2023. URL: [https://arxiv.org/abs/2310.19736] (https://arxiv.org/abs/2310.19736) (дата обращения: 12.10.2025).
Ouyang L., Wu J., Jiang X. et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems (NeurIPS 2022). 2022. URL: [https://proceedings.neurips.cc/paper_files/paper/2022/file/b1efde53be364a73914f58805a001731-Paper-Conference.pdf] (https://proceedings.neurips.cc/paper_files/paper/2022/file/b1efde53be364a73914f58805a001731-Paper-Conference.pdf) (дата обращения: 09.06.2025).
Yao S. et al. HUGAGENT: Evaluating LLMs in Simulating Human Reasoning (версия на OpenReview). 2025. URL: [https://openreview.net/pdf/be8cf8cfb9ad9e0e178f24ea8e52dda01a329389.pdf](https://openreview.net/pdf/be8cf8cfb9ad9e0e178f24ea8e52dda01a329389.pdf) (дата обращения: 06.07.2025).
TR‑Labs. How to Build Reliable Human Annotation Guidelines with LLMs (практическое руководство). 2023. URL: [https://medium.com/tr-labs-ml-engineering-blog/how-to-build-reliable-human-annotation-guidelines-with-llms-2cd8bbeff2a2] (https://medium.com/tr-labs-ml-engineering-blog/how-to-build-reliable-human-annotation-guidelines-with-llms-2cd8bbeff2a2) (дата обращения: 12.09.2025).
OpenAI. GPT‑4 – исследовательские материалы. 2023. URL: [https://openai.com/index/gpt-4-research/] (https://openai.com/index/gpt-4-research/) (дата обращения: 10.10.2025).
Олтян Н.Н. Методы преобразования полуструктурированных данных в реляционные модели: классификация, применение и оценка пригодности для аналитики и машинного обучения // Мягкие измерения и вычисления. 2025. Т. 90. № 5. С. 48–67.

Дата поступления: 16.10.2025

Одобрена после рецензирования: 27.10.2025

Принята к публикации: 30.10.2025

Скачать