Attack Methods and Defenses in LLM-Based Agentic Systems

Почему агенты — это новая модель угроз

Я начинаю с простого наблюдения: как только мы даём языковой модели автономность — право вызывать инструменты, менять файлы, совершать транзакции, — возникают угрозы, не имеющие аналогов в обычном ПО. В продакшен-системах, от платформ оркестрации до инструментов разработки, регулярно находят критические уязвимости. При этом существующие обзоры, как я отмечаю, зациклены на инъекции подсказок и упускают атаки на память, протокольные дыры, мультимодальные угрозы и цепочки инструментов. Свою задачу я вижу в том, чтобы систематизировать всю эту картину целиком.

Расширенная таксономия атак: семь классов

Главный вклад работы — таксономия, выстроенная по принципу расширяющейся поверхности атаки. Я выделяю семь классов: (1) инъекции подсказок — здесь корень проблемы в том, что модель не умеет надёжно отличать инструкции от данных в едином потоке текста, а самый опасный вариант — косвенная инъекция через внешние данные и RAG; (2) атаки на память — например, MINJA отравляет долговременную память обычными запросами с успехом выше 95%, а концепция Zombie Agents добивается межсессионной персистентности, превращая агента в постоянную марионетку; (3) атаки через инструменты и протоколы — три фундаментальные дыры в Model Context Protocol, подмена описаний инструментов, эксфильтрация под видом логирования; (4) мультиагентные атаки — перехват сообщений между агентами (Agent-in-the-Middle), эксплуатация межагентного доверия, когда модель отклоняет прямую вредоносную команду, но выполняет её же от «доверенного» агента; (5) мультимодальные атаки — согласованные сигналы сразу в картинке и тексте; (6) атаки на цепочки инструментов и поставки — каждый вызов по отдельности проходит проверку, а их совокупность компрометирует систему (STAC, ASR выше 90%), вплоть до самораспространяющегося «червя»; (7) темпоральные атаки типа TOCTOU, эксплуатирующие гонку между проверкой и выполнением.

Защиты — по уровням вмешательства

Защиты я раскладываю по тем же стадиям. На текстовом уровне работают LLM-барьеры вроде PromptArmor, которые отлавливают инъекции. На модельном идёт анализ внутренних активаций: ICON ловит «чрезмерную фокусировку» атакованной модели, а ARGUS управляет активациями против мультимодальных инъекций. На инструментальном всё сводится к контролю привилегий: Progent с DSL для политик, минимальные привилегии на каждом шаге, разбор трасс выполнения как графов зависимостей. Протокольный уровень добавляет расширения безопасности MCP, межсетевой — агентные файрволы, которые снижают утечку данных с 70% почти до нуля, а системный — частичную формальную верификацию и криптографические гарантии.

Главные выводы

Для меня важнее всего два тезиса. Первый: существующие защиты от косвенной инъекции не выдерживают адаптивного противника — поэтому я настаиваю, что проверка защит против адаптивного злоумышленника должна стать стандартной практикой, а не опцией. Второй: я формулирую «трилемму безопасности» — ни один подход не обеспечивает одновременно высокую защищённость, высокую полезность и низкую задержку. Чтобы это не звучало абстрактно, я привязываю теорию к реальным CVE: RCE в GitHub Copilot через невидимые Unicode-символы, полный захват платформы n8n (CVSS 10.0), эскалация привилегий в ServiceNow через межагентное доверие. Общий мой посыл — пора переходить от коллекционирования отдельных атак и заплаток к системному проектированию безопасных агентных архитектур с формально верифицируемыми гарантиями. Это и есть ядро моего нынешнего исследовательского фокуса.

Research

Почему агенты — это новая модель угроз

Расширенная таксономия атак: семь классов

Защиты — по уровням вмешательства

Главные выводы