В.О. Иванов1
1 Военный университет радиоэлектроники (г. Череповец, Россия)
1 info@radiotec.ru
Постановка проблемы. Современные системы информационно-аналитической обработки, функционирующие в парадигме «человек – информация», неизбежно сталкиваются с ограничениями, обуславливаемыми когнитивными ограничениями памяти аналитика. Интеграция генеративных языковых моделей, основанных на архитектуре «Трансформер», представляет собой значительный шаг к повышению степени автоматизации обработки информации. Однако присущие данным моделям феномены генеративной галлюцинации и ограниченность объема контекстного окна обуславливают потенциальные искажения фактической информации, что приводит к снижению достоверности генерируемых результатов.
Цель. Установить природу возникновения эффекта галлюционирования в авторегрессионных языковых моделях и выявить устойчивые информативные признаки для распознавания и потенциальной регуляции фактологических искажений в скрытом пространстве нейросети.
Результаты. Построена модель авторегрессионной нейросети с учетом устаревания знаний и суперпозиции параметров многослойных перцептронов, позволяющая анализировать взаимосвязь между параметрами модели и распределениями генерируемых токенов. Выявлено, что первый собственный вектор спектрального разложения разности ковариационных матриц последнего слоя является наиболее устойчивым дискриминативным признаком галлюционирования. Показано, что манипуляции активациями вдоль этого направления позволяют снижать фактологические искажения и управлять семантикой выходного текста.
Практическая значимость. Разработанный признак может быть интегрирован в инструменты мониторинга и контроля генерации текста для автоматического обнаружения и коррекции фактологических искажений на этапе вывода. Потенциально он может быть расширен на любые абстрактные концепты, что открывает путь к более гибкому и надежному управлению семантикой больших языковых моделей.
Иванов В.О. Механизмы возникновения и подавления фактологических искажений в авторегрессионных языковых моделях // Нейрокомпьютеры: разработка, применение. 2025. Т. 27. № 3. С. 40–48. DOI: https://doi.org/10.18127/j19998554-202503-06
- ГОСТ Р 43.4.1. Информационное обеспечение техники и операторской деятельности. Система человек – информация. Общие положения. Введ. 07.01.2013. М.: Изд-во стандартов. 2011. Ст. 3.46.
- Miller G. The magical number seven, plus or minus two: Some limits on our capacity for processing information // The Psychological Review. 2003. [Электронный ресурс] / URL: https://www.researchgate.net/publication/375454712 (дата обращения: 16.04.2025). DOI: 10.7551/mitpress/2834.003.0029.
- Huang L. et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions // ACM Transactions on Information Systems. 2025. V. 43. № 2. P. 1–55.
- Bereska L., Gavves E. Mechanistic interpretability for AI safety – A review // arXiv preprint arXiv:2404.14082. 2024.
- Templeton A., Jermyn A., Conerly T., et al. Scaling monosemanticity: Extracting interpretable features from Claude 3 Sonnet // Transformer Circuits [Электронный ресурс] / URL: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html (дата обращения: 16.04.2025).
- Balagansky N., Maksimov I., Gavrilov D. Mechanistic permutability: Match features across layers // arXiv preprint arXiv:2410.07656. 2024.
- Larsen K.G., Nelson J. Optimality of the Johnson-Lindenstrauss lemma // 2017 IEEE 58th Annual Symposium on Foundations of Computer Science (FOCS). IEEE. 2017. P. 633–648.
- Smith L., Rajamanoharan S., Conmy A. et al. Negative results for SAEs on downstream tasks and deprioritizing SAE research // LessWrong. 2025 [Электронный ресурс] / URL: https://www.lesswrong.com/posts/4uXCAJNuPKtKBsi28/negative-results-for-saes-on-downstream-tasks (дата обращения: 16.04.2025).
- Okawa M. et al. Compositional abilities emerge multiplicatively: Exploring diffusion models on a synthetic task // Advances in Neural Information Processing Systems. 2023. V. 36. P. 50173–50195.
- Lin S., Hilton J., Evans O. Truthfulqa: Measuring how models mimic human falsehoods // arXiv preprint arXiv:2109.07958.2021.

