Российские ученые представили новый метод стресс-тестирования нейросетей GLiRA, который выявляет их уязвимость к утечке данных. Исследование проводилось специалистами Института AIRI, ИСП РАН, Сбера, МТУСИ и Сколтеха.
GLiRA позволяет определить, входила ли конкретная информация в обучающий набор модели. Это поможет анализировать потенциальные угрозы утечек и разрабатывать стратегии защиты. Проблема безопасности данных становится все более актуальной, особенно в областях, где нейросети обрабатывают конфиденциальную информацию, таких как медицина и финансы.
Метод основан на принципе дистилляции знаний и работает в условиях «черного ящика», когда атакующий не имеет доступа к архитектуре модели, но может взаимодействовать с ней через интерфейс. Ученые использовали этот подход для обучения теневых моделей, которые имитируют поведение оригинальных нейросетей. В ходе тестов точность атак с применением GLiRA оказалась на 7% выше, чем у существующих методов.
По словам руководителя научной группы Олега Рогова, понимание уязвимостей поможет разработчикам совершенствовать механизмы защиты нейросетей.