Исследование сравнивает GPT-4 и другие большие языковые модели (LLM) на сложных задачах рассуждения, включая математику, науку, символьное рассуждение, знания и кодирование.
GPT-4 превосходит другие модели на задачах GSM8K и MMLU, в то время как модель 65B LLaMA приближается к производительности текста / кода-davinci-002.