Смысловые процессы ИИ под управлением

Исследователи из T-Bank AI Research научились отслеживать и контролировать смысловые процессы внутри ИИ.

Новый способ интерпретации и управления языковыми моделями на основе метода SAE Match разработали исследователи из лаборатории искусственного интеллекта (ИИ) T-Bank AI Research. Это продолжение предыдущих разработок команды, направленных на то, чтобы сделать работу искусственного интеллекта более прозрачной. Теперь помимо анализа того, как ИИ «думает», они предлагают способ точечно управлять его поведением без дообучения и изменения архитектуры модели.

Результаты исследования были представлены на международной конференции по машинному обучению (ICML), которая прошла в Ванкувере, Канада, с 13 по 19 июля 2025. Это одна из главных конференций в области машинного обучения и искусственного интеллекта уровня А*.

Суть открытия

Новый подход к методу SAE Match относится к области интерпретируемого ИИ – одного из ключевых направлений исследований, в котором ученые стремятся понять, как именно модели принимают решения внутри себя. Языковые модели, такие как ChatGPT или другие LLM, строят свои ответы на основе многослойной архитектуры, где каждый слой обрабатывает информацию, «передавая» ее дальше. До последнего времени исследователи могли только фиксировать, какие признаки (или концепты) появляются в этих слоях, не понимая, как именно они эволюционируют.

В новой работе исследователи из T-Bank AI Research предложили концепцию графа потока признаков – карты, которая показывает, где, когда и как в модели появляются, трансформируются или исчезают важные смысловые элементы. При этом анализ проводится не только между слоями модели, но и внутри самих слоев – между такими модулями, как attention (механизм внимания, анализирующий контекст) и feedforward (отвечающий за использование внутренних знаний модели).

Многоуровневое вмешательство

Ранее интерпретируемость была в первую очередь инструментом для наблюдения. Новый метод впервые позволяет использовать полученную информацию для активного управления моделью. Эксперименты показали, что можно усиливать или подавлять определенные признаки на разных этапах обработки, тем самым изменяя стиль, тематику или тональность генерируемого текста.

Ключевым результатом стало доказательство, что многоуровневое вмешательство (сразу на нескольких слоях и модулях) позволяет управлять моделью гораздо точнее и с меньшими потерями в качестве текста, чем попытки влияния на отдельный уровень. Это особенно важно для создания безопасных и этичных решений на базе ИИ, например, для фильтрации нежелательных тем в чат-ботах без их переобучения.

При активации концепта метод вычисляет наиболее похожие концепты с предыдущих модулей модели, таким образом получается отследить почему она сгенерировало тот или иной текст

Уникальность метода

Преимущества метода заключаются в глубоком понимании работы модели, точном контроле над поведением ИИ без переобучения, доступности для исследователей, повышении доверия и безопасности ИИ.
Метод позволяет отслеживать происхождение и путь развития признаков – от того, как информация приходит из контекста, до того, как активируются внутренние знания модели.
Новый подход позволяет управлять генерацией текста за счет активации или подавления отдельных смысловых элементов на нужных этапах – без изменения параметров модели и без ее дообучения. Это особенно важно, потому что заранее предсказать, в каком именно месте модель может выдать ошибочный или нежелательный результат, невозможно. Способность быстро и точечно повлиять на поведение модели делает метод полезным как для научных экспериментов, так и для практического применения.
Метод не требует дополнительных данных и может быть применен к уже обученным моделям, что особенно ценно для команд с ограниченными ресурсами.
Прозрачное понимание источников генерации помогает находить и предотвращать потенциально вредоносное поведение модели до его появления в ответе.

Прозрачность, безопасность, контроль

В предыдущей работе исследователи из T-Bank AI Research научились отслеживать, как признаки «живут» внутри модели – от слоя к слою. Теперь, благодаря новому подходу, разработчики смогут не просто посмотреть на то, как они проходят, но и понять, откуда они появились – из контекста или из «внутренних знаний» модели. И главное – можно влиять на них.

Это открывает путь к точному, предсказуемому управлению языковыми моделями без дообучения. Если раньше были просто предположения, что это возможно, то теперь это доказано экспериментально. Это шаг к более прозрачному, безопасному и контролируемому искусственному интеллекту.

Источник: Tbank Media 

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Цифровой девелопмент

Подробнее
Спецпроект

Машиностроительные предприятия инвестируют в ПО

Подробнее