Hugging Face, ServiceNow и Nvidia совместно запустили StarCoder 2, инструмент генерации кода с открытым исходным кодом, который должен быть «эффективным, этичным и доступным», если верить представителям. Это усовершенствование последовало за успехом оригинального StarCoder, выпущенного в 2023 году.
StarCoder 2 — это не одна программа, а семейство из трех моделей с разным размером параметров (3B, 7B и 15B), отвечающих различным требованиям производительности. Модели 3B и 7B могут работать на большинстве современных графических процессоров потребительского класса, что делает их широкодоступными.
Обучаясь на огромном объеме данных в 67,5 терабайта (по сравнению с 6,4 терабайта в оригинале), StarCoder 2 демонстрирует значительный прирост производительности по сравнению со своим предшественником. Кроме того, он может похвастаться более низкими эксплуатационными расходами.
StarCoder 2 может быть доработан с помощью, например, Nvidia A100, что позволяет разработчикам специализировать его для выполнения конкретных задач, например, создания чат-ботов или персональных помощников по программированию. Такая настройка сочетается с возможностью локального развертывания StarCoder 2, что позволяет решить проблемы, связанные с доступом облачного ИИ к кодовым базам.
Разработчики StarCoder 2 уделяют большое внимание «этическим соображениям». В отличие от некоторых конкурентов, они утверждают, что не стали обучать свои модели на коде, защищенном авторским правом. Вместо этого они использовали данные, полученные по лицензии от Software Heritage, некоммерческой организации, занимающейся архивированием кода. Кроме того, обучающие данные StarCoder 2 находятся в открытом доступе для проверки и аудита.
Несмотря на открытый исходный код, StarCoder 2 использует лицензию BigCode Open RAIL-M 1.0. Несмотря на то, что она менее ограничительна, чем другие лицензии, RAIL-M не является полностью свободной. По мнению некоторых комментаторов, она запрещает конкретные виды использования, например приложения для медицинских консультаций, и может вызвать проблемы с соответствием нормативным актам, таким как EU AI Act, из-за потенциально расплывчатых требований.