ओपनएआई OpenAI गूगल जेमिनी Google Gemini से पहले अपनी अगली पीढ़ी के मल्टीमोडल लार्ज लैंग्वेज मॉडल (एलएलएलएम), जीपीटी-विजन GPT-Vision, को लॉन्च करने के लिए काम कर रहा है।
मल्टीमोडल एलएलएम पाठ और छवियों जैसे कई प्रकार के डेटा को प्रक्रिया कर सकते हैं, जिसके कारण इन्हें प्राकृतिक भाषा समझने और छवि व्याख्या सहित विभिन्न अनुप्रयोगों के लिए उपयोगी बनाया जा सकता है।