Apple объединила усилия с Nvidia для повышения скорости генерации текста большими языковыми моделями (LLM). Это сотрудничество основывается на ранее разработанной Apple технологии Recurrent Drafter (ReDrafter).
В рамках сотрудничества Apple интегрировала ReDrafter с Nvidia TensorRT-LLM, фреймворком, предназначенным для ускорения производительности LLM на видеокартах компании. Эта интеграция позволила в 2,7 раза увеличить скорость генерации маркеров при тестировании модели с десятками миллиардов параметров. Новая система снижает задержки и энергопотребление, используя меньшее количество GPU.
Nvidia уже внесла изменения в свои операторы для лучшей поддержки ReDrafter, позволяя разработчикам машинного обучения использовать преимущества более быстрой генерации токенов.