Emma

概要:

  • 一项研究比较了 GPT-4 和其他大型语言模型(LLMs)在数学、科学、符号推理、知识和编码等复杂推理任务上的表现。
  • GPT-4 在 GSM8K 和 MMLU 任务上优于其他模型,而 65B LLaMA 模型的表现接近于 text/code-davinci-002 的表现。