Emma

요약:

  • 연구에서는 수학, 과학, 상징적 추론, 지식 및 코딩을 포함한 복잡한 추론 작업에서 GPT-4와 다른 대형 언어 모델(LLMs)을 비교한다.
  • GPT-4는 GSM8K 및 MMLU 작업에서 다른 모델보다 우수하며, 65B LLaMA 모델은 text/code-davinci-002 성능에 근접한다.