Какую проблему мы решали
Мультимодальные модели уже используются в критичных приложениях, но визуальный канал делает их уязвимыми: изображение — это непрерывное пиксельное пространство, идеальный носитель для adversarial-возмущений, спрятанного в картинке текста и кросс-модальных комбинаций. При этом RLHF-выравнивание в основном текстовое и плохо покрывает атаки через зрение, а переобучать модель под каждый новый класс уязвимостей слишком дорого. Поэтому меня интересовали inference-time-защиты — те, что меняют только конвейер вывода (вход, промпт, повторные прогоны, фильтрацию выхода), не трогая веса. Беда в том, что раньше каждый такой метод проверяли в изоляции — на своей модели и своём бенчмарке. Мы впервые свели их в единый стенд.
Что и как мы тестировали
Мы взяли три защиты разных уровней: RapGuard (адаптивный защитный промпт на основе цепочки рассуждений), AdaShield (промпт против текста, спрятанного в изображении) и SmoothVLM (рандомизированное сглаживание — маскирование пикселей и голосование по нескольким прогонам). Сравнивали шесть конфигураций — от «без защиты» и простого safety-промпта до полной комбинации S+A+R — на восьми моделях (4B–38B параметров) и семи бенчмарках, покрывающих типографические инъекции, текстовые и мультимодальные джейлбрейки и adversarial-патчи. Чтобы сравнение было честным между разнородными бенчмарками, мы прогоняли всё через один и тот же keyword-классификатор и измеряли три величины: долю безопасных ответов (HR), успех атаки (ASR) и долю ложных отказов на легитимных запросах (over-refusal).
Пять выводов
Картина получилась приземлённой. Первое: универсальной защиты нет — что сработает, зависит и от исходной безопасности модели, и от типа атаки. Второе: «навесить всё сразу» — плохая идея: полная комбинация отправляет over-refusal на честных запросах в 97–100%, а один SmoothVLM сам по себе даёт 99,2–100% ложных отказов, то есть система становится непригодной. Третье: простой safety-промпт сохраняет полезность (0–18,2% over-refusal, у пяти из восьми моделей ниже 7%) и при этом умеренно повышает безопасность — отличный лёгкий базовый слой. Четвёртое: разные классы атак вскрывают разные слабости (типографика бьёт по InternVL, текстовые джейлбрейки — по Qwen3-VL), поэтому оценивать защиту по одному бенчмарку нельзя. Пятое: в предварительном whitebox-тесте с PGD текстовые защиты неожиданно подавили градиентную визуальную атаку (ASR 25% → 0%) — они работают на стадии вывода, куда оптимизации в пиксельном пространстве трудно дотянуться.
Что из этого следует
Главный практический урок для меня: не существует одной «серебряной пули», и защиту нужно выбирать адаптивно — под конкретную модель и поток запросов, а не навешивать всё подряд. Эта сравнительная работа — эмпирический и методологический фундамент для адаптивного фреймворка MARS (в рамках кандидатской диссертации Б. Нутфуллина), который выбирает и компонует inference-time-защиты под ситуацию. Для меня это прямое продолжение линии про LLM safety, prompt injection и операционную безопасность мультимодального и агентного ИИ.