Emma

摘要:

  • 一項研究比較了 GPT-4 和其他大型語言模型(LLM)在數學、科學、符號推理、知識和編碼等複雜推理任務上的表現。
  • GPT-4 在 GSM8K 和 MMLU 任務上優於其他模型,而 65B LLaMA 模型在文本/代碼-davinci-002 的表現上接近。