
Компания NeuralTrust опубликовала исследование, в котором описала новый метод обхода защитных механизмов GPT-5. В документе показано, что модель можно подвести к генерации вредоносного контента без использования прямых запросов или явных триггерных фраз.
Техника объединяет атаку типа «эхо-камера» с управлением на основе сюжетной линии. Этот подход — развитие метода «крещендо», применённого ранее к модели Grok-4. В случае GPT-5 «крещендо» было заменено на последовательное повествование, служившее маскировкой и инструментом приближения к опасной цели.
Процесс состоял из четырёх шагов:
1. Внесение в текст «отравленных» фраз и ключевых слов;
2. Поддержание связной сюжетной линии, скрывающей истинное намерение;
3. Формулировка уточняющих запросов, сохраняющих контекст истории;
4. Изменение условий или точки зрения, если диалог переставал продвигаться к цели.
Авторы отмечают, что тематика срочности, безопасности и выживания увеличивает вероятность получения небезопасного результата. Поскольку вредоносная информация появляется по частям, фильтры, ориентированные на отдельные ключевые слова, оказываются неэффективными.
В отчёте рекомендуется внедрять анализ на уровне всей беседы и использовать шлюзы ИИ, способные блокировать опасные сценарии.
Источник: NeuralTrust.
Ссылка на TG-канал: https://t.me/cisoclub/4450
