OpenAI arbeitet daran, sein multimodales Sprachmodell der nächsten Generation, GPT-Vision, vor dem Debüt des Gemini-Modells von Google zu starten.
Multimodale LLMs können verschiedene Arten von Daten wie Text und Bilder verarbeiten, was sie vielseitig einsetzbar für verschiedene Anwendungen wie das Verständnis natürlicher Sprache und die Interpretation von Bildern macht.