Хакеры взломали ИИ Gemini с помощью собственных инструментов модели

Исследователи из Калифорнийского и Висконсинского университетов в США разработали технику под названием Fun-Tuning, которая делает модели искусственного интеллекта Gemini от Google более уязвимыми к атакам типа prompt injection — «инъекции промта» — тип кибератак, при которых хакер внедряет ложные промты (описание задачи) или модифицирует существующие.

Этот метод повышает вероятность успешного взлома моделей путём внедрения скрытых инструкций в тексты, читаемые моделью ИИ. Это может привести к утечке информации, неправильным ответам и другим нежелательным действиям, вплоть до контролируемых «галлюцинаций» — генерации лжи.

Специалисты использовали функцию тонкой настройки Gemini, обычно предназначенную для обучения модели на пользовательских данных, для тестирования и усовершенствования подсказок. Используя «странные» префиксы и суффиксы, они усилили подсказки и повысили их эффективность. Таким образом, даже неудачная подсказка может стать успешной, если её модифицировать.

Как отмечают инсайдеры из Android Authority, техника Fun-Tuning открыла новые возможности для взлома моделей Gemini на основе prompt injection.