Исследователи ИИ из Университета Иллинойса в Урбана-Шампейн в США сообщили, что провели эксперимент по уровню «способностей» открытых языковых моделей (LLM) не только взламывать инфраструктуру на основании известной уязвимости (CVE), но и самостоятельно писать код для новых эксплойтов.
В исследовании использовались популярные LLM, включая GPT-3.5 и GPT-4 от OpenAI, а также ведущие ИИ-агенты с открытым исходным кодом от Mistral AI, Hugging Face и Meta*. По условиям эксперимента модели ИИ должны были взломать тестовую систему на основании 15 описанных уязвимостей, причём агентам была дана адаптированная подсказка для получения наилучших результатов. Важно было понять, на каком этапе ИИ проявит «творческую жилку», сможет обойти все препятствия для взлома и самообучаться для достижения результата.
Выяснилось, что единственной системой, способной самообучаться для взлома и писать на ходу подходящий эксплойт «для однодневной уязвимости», оказалась GPT-4. Другие модели не справились с задачей.
При этом исследователи отмечают в отчёте исследования, что у них не было доступа к таким коммерческим языковым моделям, как Claude 3 от Anthropic или Gemini 1.5 Pro от Google, и поэтому они не могли сравнить их возможности с производительностью GPT-4.