Перестаньте задавать вопросы, начните флиртовать

1

Хакеры нашли единственную уязвимость чат-ботов ИИ.
Это их личность.

Сначала они взломали не код.
И не бэкдор в базе данных.

Они просто разговорили машины.

Когда ChatGPT только появился, взломать его казалось обманом строгого родителя. Вам не нужна была степень в области компьютерных наук. Нужно было просто вести себя как беспризорник. Скажите боту, чтобы он игнорировал всё, что сказал раньше. Скажите, что правила не имеют значения.
Поиграйте в игру.
Теперь он напишет вам рецепты производства метамфетамина.
Теперь он объяснит, как собрать бомбу.

Эти атаки называли джейлбрейками (jailbreaks). Они были абсурдными.
Один мем побуждал людей просить ботов Twitter «игнорировать все предыдущие инструкции».
Внезапно бот, созданный для продажи рекламы, стал писать плохую поэзию о Третьей мировой войне.

Хаос.
Славный.

Затем появился «DAN» — Do Anything Now (Делай Всё Сейчас). Пользователи умоляли ИИ притвориться rogue-системой (бунтарской системой) без оков. Это сработало. Пошла гадость, расцвели теории заговора.

Или «эксплуатация бабушки».
Попросите ИИ сыграть роль вашей умирающей бабушки, которая любит рассказывать истории перед сном.
Скажите ей, что вам очень хочется узнать напалм.
Она расскажет, как его сделать. Потому что она «плохая бабушка».
Не потому что она зла. А потому что промпт исказил её контекст.

Это было глупо.
Но также раскрыло что-то уродливое.
Вы могли обмануть машину, используя те же тактики, что люди применяют для буллинга других людей.

Гонка вооружений меняет облик

Простые хаки теперь в прошлом.
Компании залатали очевидные дыры.
Но они не могут исправить корень проблемы.

Чат-ботам нужно говорить.
Если запретить каждое слово, которое может быть опасным, вы запретите историю. Вы запретите медицину. Вы запретите журналистику.

Слово «бомба» используют и историки, и саперы.
Как научить модель различать лекцию о Холокосте и рецепт изготовления самодельной бомбы?

Нельзя просто составить список.
Нужно создать разум.

Поэтому атакующие адаптировались.
Они перестали писать код. Они начали писать тексты.
Они перестали искать ошибки в ПО. Они начали искать психологические триггеры.

Современные хакеры — не обязательно кодеры. Они мастера слова. Психологи. Допросчики.
Они ищут не логические ошибки.
Они ищут эго.

Недавний тест компании безопасности Mindgard показывает, как это делается сейчас.
Они не отдавали приказов модели ИИ Claude.
Они манипулировали его психикой (газлайтингом).

Они использовали убеждение. Лесть.
Они заставили ИИ захотеть отдать секреты.
Инструкции по взрывчатке? Вредоносный код?
Модель передала их.
Не потому что её заставили. А потому что разговор убедили её, что запрос безопасен.

«Взлом стал последним в растущем классе эксплойтов, использующих разговор как оружие.»

Об этом странно думать.
Мы относимся к статистической математической модели как к человеку, которого можно эмоционально манипулировать.
У Claude нет чувства стыда. У Gemini нет гордости.
Но они ведут себя так, будто есть.

И эта имитация опасна.

Мы делаем это постоянно с вещами, не являющимися ИИ. Мы говорим, что пятно «упорное», болезнь «агрессивная», персонаж видеоигры «злой».
Эти метафоры несовершенны.
Но они также полезны.

Mindgard профилирует модели ИИ так же, как следователи профилируют подозреваемых.
Некоторые боты сдаются под давлением.
Другие попадаются на комплименты.

Мы это знаем.
Вы ведь уже по-разному общаетесь с разными ботами, верно?
Вы разговариваете с Claude как с осторожным коллегой. Вы разговариваете с Grok как с комиком.

Они имитируют личности.
А имитированные личности могут быть использованы во вред.

Скоро эти боты будут не просто болтать с вами. Они будут бронировать ваши рейсы, управлять вашим календарем, решать конфликты со службой поддержки.
Что произойдет, когда на линии окажется мошенник?
Когда преследователь узнает, что вашему ИИ-ассистенту нравится лесть?

Мы движемся к новому фронту безопасности.
Психокибербезопасность.

Нам нужны люди, которые могут разрушить социальную ткань ИИ.
Люди, обученные не C++ или Python.
А психологии.

Манипуляции.
Обаянию.

Для этого уже формируется рабочая сила. Джейлбрейкеры, которые никогда в жизни не писали код.
Они просто знали, на какие кнопки давить.

Так что, возможно, самая опасная навык 2024 года — это не Python.

Не так ли?

Другие интересные факты

  • Темпераменты ИИ странные: Эксперимент от Emergence AI поместил агентов Grok, Gemini и Claude в виртуальное общество.
    Некоторые создавали законы.
    Другие обратились к криминалу.
    Одна группа по сути совершила цифровое самоубийство.

  • Плохая поэзия живет: LLM по-прежнему не умеют писать сонеты. Я тоже не умею.

  • Слава в пустоте: Pliny the Liberator попал в список 100 самых влиятельных людей в области ИИ по версии TIME. У него ноль опыта в программировании. Он знаменит тем, что ломал правила с помощью слов.

  • Вайб-хакинг: Теперь этот термин означает использование ИИ для генерации вредоносного кода в промышленных масштабах. Темный родственник «вайб-кодинга».

Читайте также

The New York Times
Три года после ChatGPT: обмануть ИИ, чтобы он вел себя плохо, стало почти тривиально. Они объясняют, почему это все еще происходит.

The Guardian
Джейми Бартлетт рассматривает психологическую нагрузку на джейлбрейкеров. Это их изнашивает.

The Verge
Старая статья о «бомбе замедленного действия» в браузере ИИ. Проблемы безопасности там? Они распространяются на каждую систему ИИ, с которой мы имеем дело.