Les grands modèles de langage (LLM) échouent à générer du code Python correct lorsque les noms de fonction par défaut sont modifiés.
Avec l'augmentation de la taille du modèle, certains LLM deviennent plus confiants dans des prédictions incorrectes, un phénomène appelé Inverse Scaling.