В Минобрнауки России сообщили, что специалисты Кольского научного центра РАН разработали новый метод интеграции больших языковых моделей (LLM) для анализа данных из социальных сетей. Подход направлен на повышение достоверности информации, которую такие модели извлекают из открытых источников.
Стандартное использование LLM часто сталкивается с проблемой генерации правдоподобной, но фактически недостоверной информации. Ученые предложили три варианта архитектуры взаимодействия модели с данными: прямой запрос, конвейер с предварительным извлечением ключевых слов и кластерный подход.
Тестирование проходило с использованием реальных данных из домовых чатов. Кластерный метод, при котором тексты преобразуются в векторы, группируются, а затем обобщаются, показал наилучшие результаты. На больших массивах данных он обеспечил 100% стабильность и 94% прослеживаемости результата, отметили в ведомстве.
Разработка уже внедрена в систему мониторинга.