В пресс-службе Минобрнауки РФ сообщили, что в ученые Национального исследовательского ядерного университета МИФИ разработали нейросеть MambaShield, защищенную от так называемых атак отравления.
Такие атаки происходят, когда злоумышленник внедряет в обучающие данные вредоносные образцы. Это меняет логику работы модели, и она может начать ошибаться или выполнять действия, выгодные хакеру. При этом внешне искусственный интеллект продолжает казаться исправным.
В основе MambaShield лежит архитектура выборочных моделей в пространстве состояний. Она позволяет нейросети динамически решать, какую информацию из прошлого контекста сохранить, а какую отбросить. Это похоже на разговор в шумном кафе: система фокусируется на нужном собеседнике, отфильтровывая посторонний шум и вредоносные вставки, отметили в пресс-службе.
Тесты показали, что даже при отравлении 30% обучающих данных точность MambaShield остается выше 97%. В экспериментах с миллионами образцов вредоносного трафика точность обнаружения атак достигла 99,1%. При этом модель работала в 4,2 раза быстрее классического трансформера.
Разработку можно внедрять в банках, медицине и на атомных станциях.