Компания NeuralTrust опубликовала исследование, в… — Новости Информационной Безопасности

Компания NeuralTrust опубликовала исследование, в котором описала новый метод обхода защитных механизмов GPT-5. В документе показано, что модель можно подвести к генерации вредоносного контента без использования прямых запросов или явных триггерных фраз.

Техника объединяет атаку типа «эхо-камера» с управлением на основе сюжетной линии. Этот подход — развитие метода «крещендо», применённого ранее к модели Grok-4. В случае GPT-5 «крещендо» было заменено на последовательное повествование, служившее маскировкой и инструментом приближения к опасной цели.

Процесс состоял из четырёх шагов:

1. Внесение в текст «отравленных» фраз и ключевых слов;
2. Поддержание связной сюжетной линии, скрывающей истинное намерение;
3. Формулировка уточняющих запросов, сохраняющих контекст истории;
4. Изменение условий или точки зрения, если диалог переставал продвигаться к цели.

Авторы отмечают, что тематика срочности, безопасности и выживания увеличивает вероятность получения небезопасного результата. Поскольку вредоносная информация появляется по частям, фильтры, ориентированные на отдельные ключевые слова, оказываются неэффективными.

В отчёте рекомендуется внедрять анализ на уровне всей беседы и использовать шлюзы ИИ, способные блокировать опасные сценарии.

Источник: NeuralTrust.

Ссылка на TG-канал: https://t.me/cisoclub/4450

Tags: нейросети

Похожие новости

Мошенники обманули 67-летнюю жительницу Лучегорска…

Мошенники используют .vcf для подмены…