OpenAI travaille à lancer son modèle LLM multimodal de nouvelle génération, GPT-Vision, avant que le modèle Gemini de Google ne fasse ses débuts.
Les LLM multimodaux peuvent traiter plusieurs formes de données telles que du texte et des images, ce qui les rend polyvalents pour différentes applications, notamment la compréhension du langage naturel et l'interprétation d'images.