Emma

Zusammenfassung:

  • OpenAI arbeitet daran, sein multimodales Sprachmodell der nächsten Generation, GPT-Vision, vor dem Debüt des Gemini-Modells von Google zu starten.
  • Multimodale LLMs können verschiedene Arten von Daten wie Text und Bilder verarbeiten, was sie vielseitig einsetzbar für verschiedene Anwendungen wie das Verständnis natürlicher Sprache und die Interpretation von Bildern macht.