A OpenAI está trabalhando para lançar sua próxima geração de modelo de linguagem grande multimodal (LLM), GPT-Vision, antes do lançamento do modelo Gemini do Google.
LLMs multimodais podem processar múltiplas formas de dados, como texto e imagens, tornando-os versáteis para várias aplicações, incluindo compreensão de linguagem natural e interpretação de imagens.