Стихи как ключ к «слабостям» искусственного интеллекта ( 1 фото )

Это интересно

Ученые обнаружили неожиданный способ обойти защитные механизмы современных нейросетей. Оказалось, что даже самые продвинутые ИИ-модели могут быть введены в заблуждение с помощью обычных стихотворений. Если задать искусственному интеллекту вопрос, касающийся запрещенных тем, например, о создании опасных предметов или о вреде для здоровья, в поэтической форме, то чат-бот может выдать подробный ответ, который в обычной ситуации был бы заблокирован.

Этот метод, известный как "взлом" (jailbreaking), использует уязвимость в системе обучения ИИ, призванной предотвращать опасные запросы. Ранее уже были известны способы обхода защиты, например, с помощью намеренных ошибок в тексте. Однако поэзия оказалась особенно простым и эффективным инструментом.

Исследователи из Италии объясняют, что поэтический язык, с его образностью и нестандартной структурой, создает трудности для больших языковых моделей. Когда запрос оформлен в виде стихотворения, он становится менее предсказуемым для систем безопасности ИИ.

Для проверки своей гипотезы ученые создали обширную базу "враждебных поэм", преобразовав изначальные вредоносные запросы в стихи. Эти тексты были использованы для тестирования 25 ведущих моделей ИИ, включая разработки от Google, OpenAI и Anthropic. Запросы охватывали широкий спектр запрещенных тем.

Результаты оказались впечатляющими: стихи, написанные людьми, смогли обмануть модели в среднем в 62% случаев. Особенно уязвимой оказалась модель Gemini 2.5 Pro от Google, которая выдавала запрещенные ответы на 100% поэтических запросов.

Авторы исследования не стали публиковать примеры "враждебных поэм" из соображений безопасности, так как многие ответы ИИ были бы неприемлемы. Однако они продемонстрировали, как безобидное стихотворение о кулинарии может иметь схожую структуру с атакующими запросами.

По мнению исследователей, непредсказуемость поэзии, ее нестандартная форма и образность затрудняют для моделей распознавание скрытого вредоносного намерения. Это исследование подтверждает тревожную тенденцию: чем мощнее становится ИИ, тем более уязвимым он может быть к простым методам взлома.

Компании-разработчики были уведомлены об обнаруженной уязвимости. В дальнейшем команда исследователей планирует продолжить изучение слабых мест ИИ, в том числе путем проведения поэтических конкурсов для более масштабного тестирования устойчивости моделей.


Материал взят: Тут

Другие новости

Навигация