Внимание!!! Интернет ресурс Шняги.НЕТ может содержать контент, запрещенный к просмотру лицам не достигшим 18 летнего возраста.
Capitan

Стихи как ключ к «слабостям» искусственного интеллекта ( 1 фото )

Ученые обнаружили неожиданный способ обойти защитные механизмы современных нейросетей. Оказалось, что даже самые продвинутые ИИ-модели могут быть введены в заблуждение с помощью обычных стихотворений. Если задать искусственному интеллекту вопрос, касающийся запрещенных тем, например, о создании опасных предметов или о вреде для здоровья, в поэтической форме, то чат-бот может выдать подробный ответ, который в обычной ситуации был бы заблокирован.

Этот метод, известный как "взлом" (jailbreaking), использует уязвимость в системе обучения ИИ, призванной предотвращать опасные запросы. Ранее уже были известны способы обхода защиты, например, с помощью намеренных ошибок в тексте. Однако поэзия оказалась особенно простым и эффективным инструментом.

Исследователи из Италии объясняют, что поэтический язык, с его образностью и нестандартной структурой, создает трудности для больших языковых моделей. Когда запрос оформлен в виде стихотворения, он становится менее предсказуемым для систем безопасности ИИ.

Для проверки своей гипотезы ученые создали обширную базу "враждебных поэм", преобразовав изначальные вредоносные запросы в стихи. Эти тексты были использованы для тестирования 25 ведущих моделей ИИ, включая разработки от Google, OpenAI и Anthropic. Запросы охватывали широкий спектр запрещенных тем.

Результаты оказались впечатляющими: стихи, написанные людьми, смогли обмануть модели в среднем в 62% случаев. Особенно уязвимой оказалась модель Gemini 2.5 Pro от Google, которая выдавала запрещенные ответы на 100% поэтических запросов.

Авторы исследования не стали публиковать примеры "враждебных поэм" из соображений безопасности, так как многие ответы ИИ были бы неприемлемы. Однако они продемонстрировали, как безобидное стихотворение о кулинарии может иметь схожую структуру с атакующими запросами.

По мнению исследователей, непредсказуемость поэзии, ее нестандартная форма и образность затрудняют для моделей распознавание скрытого вредоносного намерения. Это исследование подтверждает тревожную тенденцию: чем мощнее становится ИИ, тем более уязвимым он может быть к простым методам взлома.

Компании-разработчики были уведомлены об обнаруженной уязвимости. В дальнейшем команда исследователей планирует продолжить изучение слабых мест ИИ, в том числе путем проведения поэтических конкурсов для более масштабного тестирования устойчивости моделей.

Стихи как ключ к «слабостям» искусственного интеллекта native-yes

Взято: Тут

+152492
  • 0
  • 7 543
Обнаружили ошибку?
Выделите проблемный фрагмент мышкой и нажмите CTRL+ENTER.
В появившемся окне опишите проблему и отправьте уведомление Администрации.
Нужна органическая вечная ссылка из данной статьи? Постовой?
Подробности здесь

Добавить комментарий

  • Внимание!!! Комментарий должен быть не короче 40 и не длиннее 3000 символов.
    Осталось ввести знаков.
    • angelangryapplausebazarbeatbeerbeer2blindbokaliboyanbravo
      burumburumbyecallcarchihcrazycrycup_fullcvetokdadadance
      deathdevildraznilkadrinkdrunkdruzhbaedaelkafingalfoofootball
      fuckgirlkisshammerhearthelphughuhhypnosiskillkissletsrock
      lollooklovemmmmmoneymoroznevizhuniniomgparikphone
      podarokpodmigpodzatylnikpokapomadapopapreyprivetprostitequestionrofl
      roseshedevrshocksilaskuchnosleepysmehsmilesmokesmutilisnegurka
      spasibostenastopsuicidetitstorttostuhmylkaumnikunsmileura
      vkaskewakeupwhosthatyazykzlozomboboxah1n1aaaeeeareyoukiddingmecerealguycerealguy2
      challengederpderpcryderpgopderphappyderphappycryderplolderpneutralderprichderpsadderpstare
      derpthumbderpwhydisappointfapforeveraloneforeveralonehappyfuckthatbitchgaspiliedjackielikeaboss
      megustamegustamuchomercurywinnotbadnumbohgodokaypokerfaceragemegaragetextstare
      sweetjesusfacethefuckthefuckgirltrolltrolldadtrollgirltruestoryyuno