Ученые из лаборатории T-Bank AI Research разработали новый метод под названием SAE Match, который позволяет отслеживать, как искусственный интеллект (ИИ) принимает решения и почему модель приходит к определенным выводам. Это открытие помогает улучшить точность и качество ответов ИИ, а также повысить прозрачность его работы, что особенно важно в таких сферах, как медицина, финансы и безопасность.
Метод SAE Match позволяет не просто фиксировать данные на различных слоях языковой модели ИИ, но и анализировать, как изменяются концепции от слоя к слою. Это открытие дает возможность более точно контролировать процесс генерации текста и предотвращать появление нежелательных или неточных ответов, что ранее было невозможно без дорогостоящего переобучения модели.
Методика SAE Match отличается простотой и доступностью, так как не требует дополнительных данных для работы или дообучения модели. Это делает метод менее ресурсоемким и доступным даже для небольших команд, что является важным преимуществом.
Результаты исследования будут представлены на международной конференции по обучению представлений (ICRL) в Сингапуре в 2025 году. Ученые утверждают, что метод SAE Match поможет повысить уровень доверия к ИИ, сделать его работу более прозрачной и предсказуемой, а также предотвратить возможные сбои в процессе его работы. В будущем метод будет использоваться для создания более безопасных и этичных ИИ-систем.