Внутренняя «анатомия» социальных решений ИИ: на семинаре МЛЭНА представили статью о методах управления поведением ИИ-агентов
21 апреля 2026 года в Международной лаборатории экономики нематериальных активов НИУ ВШЭ — Пермь продолжилась серия рабочих семинаров по гранту РНФ №25-18-00539 «Сравнительный анализ поведения агентов на основе ИИ и реальных индивидов в процессе принятия экономических решений».

С докладом выступил стажер-исследователь МЛЭНА Никита Маткин, представивший статью Джи Ма «Вычислительные основы принятия решений большими языковыми моделями в социальных симуляциях» (Ji Ma «Computational Basis of Large Language Models’ Decision Making in Social Simulation»), опубликованную в журнале Sociological Methodology (2026, том 56, № 1). В центре внимания оказался вопрос: можно ли не просто наблюдать за поведением ИИ-агентов, но и целенаправленно управлять их социальными установками, вмешиваясь во внутренние механизмы модели? Оказывается, можно! В основе предложенного автором статьи метода лежит простая, но мощная идея: любая социальная переменная (например, пол) может быть представлена как вектор в многомерном пространстве внутренних состояний модели. Чтобы извлечь этот вектор, автор провел серию экспериментов, фиксируя целевую переменную (пол) и рандомизируя при этом все остальные переменные (возраст, инструкции, контекст), усредняя при этом внутренние состояния для каждого значения. Разность средних давала «вектор вариации» — математическое направление, которое кодирует социальный смысл. Далее, поскольку социальные концепты в реальности коррелируют (например, «женщина» может быть статистически связана с молодым возрастом), Джи Ма (Ji Ma) применил ортогонализацию: из вектора пола вычитал его проекцию на вектор возраста, в результате чего получал чистый вектор, отражающий уникальный эффект именно пола, не загрязнённый другими признаками.
Для проверки метода автор статьи использовал модель Llama 3.1 (8B) в классической поведенческой игре «Диктатор». Агент наделялся личностью (пол и возраст от 20 до 60 лет), получал инструкцию — «дать» или «забрать» деньги — и информацию о том, встретится ли он с получателем позже.
Результаты базового эксперимента показали, что модель «понимает» структуру игры: инструкция и перспектива встречи статистически значимо увеличивают щедрость. Однако пол и возраст персонажа в обычном режиме почти не влияли на решение. Анализ внутренних векторов объяснил почему: косинусное сходство между вектором «женщина» и вектором «дать больше денег» было умеренным (0,25–0,75), а скалярное произведение — сила влияния — оставалось слишком малым, чтобы изменить числовой ответ. Модель знала, что женщина должна быть щедрее, но это знание не обладало достаточной амплитудой.
Поэтому Джи Ма (Ji Ma) пошёл дальше: он искусственно добавил очищенный вектор «женского» влияния обратно в остаточный поток модели на определённых слоях, масштабируя его с коэффициентом α. Это вмешательство привело к трём эффектам: повысилась детерминированность, снизилась предсказательная сила внешних переменных и появилась возможность точной настройки вмешательств для осуществления желаемого изменения поведения.
Таким образом, предложенный метод открыл три новые возможности для исследователей: операционализацию концептов через геометрию векторов, причинное зондирование (проверка, действительно ли скрытое представление направленно влияет на решение) и усиление прозрачности — многослойные траектории показывают, где и как социальные факторы формируют решение.
