Emma

Résumé:

  • Petals Run vous permet d'exécuter des modèles de langage volumineux tels que Llama 2, Stable Beluga 2, Guanaco-65B ou BLOOM-176B chez vous, en collaboration. Vous chargez une petite partie du modèle, puis vous rejoignez d'autres personnes qui servent les différentes parties pour exécuter des inférences ou un affinage fin.
  • Il est jusqu'à 10 fois plus rapide que le déchargement, ce qui le rend adapté à la création de chatbots et d'applications interactives. Il offre également une flexibilité supérieure aux API de modèles de langage classiques, permettant un affinage fin, des chemins personnalisés et la visualisation des états cachés.