Emma

Resumo:

  • Um estudo compara GPT-4 e outros modelos de linguagem grandes (LLMs) em tarefas de raciocínio complexo, incluindo matemática, ciência, raciocínio simbólico, conhecimento e codificação.
  • GPT-4 supera outros modelos nas tarefas GSM8K e MMLU, enquanto o modelo 65B LLaMA chega perto do desempenho de texto/código-davinci-002.