Emma

Resumen:

  • Un estudio compara GPT-4 y otros modelos de lenguaje grandes (LLMs) en tareas de razonamiento complejo, incluyendo matemáticas, ciencias, razonamiento simbólico, conocimientos y codificación.
  • GPT-4 supera a otros modelos en las tareas GSM8K y MMLU, mientras que el modelo 65B LLaMA se acerca al rendimiento de texto/código-davinci-002.