Emma

サマリー:

  • 研究では、数学、科学、象徴的推論、知識、およびコーディングを含む複雑な推論タスクでGPT-4とその他の大規模言語モデル(LLM)を比較しています。
  • GPT-4はGSM8KおよびMMLUタスクで他のモデルを上回り、65B LLaMAモデルはtext/code-davinci-002のパフォーマンスに近づいています。