Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент

Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент «Дата Саентист» (Data Scientist) Магдалена Конкевич раскрыла тревожные уязвимости в больших языковых моделях (LLM), предостерегая от потенциального злоупотребления, ведущего к вредоносному поведению. Раскрывая методы оперативной инженерии, Конкевич поведала о том, как LLM, созданные для решения повседневных языковых задач, могут быть использованы для получения вредоносных результатов.

Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент

«Дата Саентист» (Data Scientist) Магдалена Конкевич раскрыла тревожные уязвимости в больших языковых моделях (LLM), предостерегая от потенциального злоупотребления, ведущего к вредоносному поведению. Раскрывая методы оперативной инженерии, Конкевич поведала о том, как LLM, созданные для решения повседневных языковых задач, могут быть использованы для получения вредоносных результатов.

В статье рассматриваются принципы проектирования LLM, подчеркивается их восприимчивость к атакам противника. Конкевич демонстрирует реальные примеры атак типа «prompt injection», когда пользователи обманом заставляют LLM генерировать нежелательный контент. Эти и другие методы взлома позволяют злоумышленникам обходить функции безопасности.

Риски не просто теоретические, о чем свидетельствуют примеры принуждения LLM к предоставлению инструкций по незаконной деятельности. В статье предлагаются меры защиты, в том числе использование разделителей для разграничения пользовательского ввода и внутренних инструкций, а также пропаганда k-shot обучения и предварительно обученных алгоритмов машинного обучения для обнаружения и предотвращения вредоносных вводов.