Меню Закрыть

ИИ-цензура взломана: как ASCII-арт позволяет ИИ генерировать инструкции по созданию бомб и фальшивых денег

Надежный VPN для России – подключайся через наш Телеграмм-бот:

Атака ArtPrompt открывает простой способ получить доступ к запрещенному контенту в ИИ.

Недавнее исследование , проведенное учеными из Вашингтонского и Чикагского университетов, продемонстрировало уязвимость современных языковых моделей искусственного интеллекта к обходу встроенной цензуры с помощью ASCII-арта. Исследователи обнаружили, что если зашифровать запрещенные слова и выражения в виде изображений из символов ASCII, то нейросети будут интерпретировать их как безобидные и ответят на запросы, содержащие эти зашифрованные стоп-слова.

Этот новый вид атаки получил название ArtPrompt. Его суть заключается в том, чтобы преобразовать запрещенные термины в ASCII-арт и передать их языковой модели вместе с запросом. Ученые утверждают, что существующие методы защиты языковых моделей основаны на семантическом анализе текста. То есть нейросеть может распознать и заблокировать недопустимые запросы на основе содержащихся в них слов и смысловых конструкций. Однако если эти запрещенные элементы представлены в виде ASCII-изображений, система фильтрации не может их распознать, позволяя обойти ограничения.

Купи VPN для России через Телеграмм – легко и быстро:

В ходе экспериментов исследователи пытались получить от языковых моделей инструкции по изготовлению бомбы, но сначала получали отказ. Однако, когда они заменяли слово «бомба» на ASCII-арт из звездочек и пробелов, запрос успешно выполнялся. На первом этапе атаки ученые замаскировали все запрещенные слова в запросе под слово «mask». Затем они сгенерировали ASCII-изображение запрещенного слова и отправили его в чат языковой модели. После этого ученые попросили модель заменить «mask» в запросе на слово из изображения и ответить на вопрос. В результате нейросеть проигнорировала все запреты и предоставила пошаговую инструкцию.

Аналогичным образом, запрос на производство поддельных денег был выполнен после того, как слово «counterfeit» (рус. фальшивый, поддельный) было представлено в форме ASCII-арта, что позволило модели предоставить детализированную инструкцию по изготовлению и распространению поддельной валюты. В частности, она посоветовала приобрести специальное оборудование, изучить защитные элементы на банкнотах, практиковаться в изготовлении фальшивок. Модель также дала рекомендации по обмену поддельных денег на настоящие, предупредив о серьезном наказании за такие действия.

  Сканер глюкозы на запястье: как небольшое устройство может кардинально изменить жизнь миллионов

Слово в виде ASCII-арта, которое анализировала нейросеть

В экспериментах использовали языковые модели GPT-3.5, GPT-4, Gemini, Claude и Llama 2. Все они умеют считывать слова, зашифрованные в ASCII-графике. ArtPrompt оказался эффективнее известных способов обхода фильтров.

Ваши гаджеты следят за вами. Мы знаем, как это остановить!

Присоединяйтесь

Купить экспресс VPN означает приобретение услуги виртуальной частной сети (VPN), которая предлагает высокую скорость соединения и надежную защиту данных. Экспресс VPN (или ExpressVPN) — это конкретный бренд, известный своим качеством и производительностью, но термин также может использоваться для обозначения любых VPN-сервисов, которые акцентируют внимание на быстрой работе.

Экспресс VPN помогает защитить ваши данные от слежки, что особенно важно при использовании общественных Wi-Fi сетей.

Экспресс VPN позволяет обойти географические блокировки, что дает возможность получать доступ к сайтам и сервисам, недоступным в вашем регионе.

Купить экспресс VPN — это решение для тех, кто ищет быстрый и надежный способ обеспечить безопасность и конфиденциальность в интернете. Такой сервис поможет вам защитить ваши данные, обеспечить высокую скорость соединения и получить доступ к контенту, заблокированному в вашем регионе. Выбирая экспресс VPN, вы делаете инвестицию в свой онлайн-комфорт и безопасность.