LLM 벤치마크 결과

다양한 LLM 모델의 벤치마크 성능을 비교해보세요.

MMLU 벤치마크 결과

MMLU(Massive Multitask Language Understanding)는 모델의 일반적인 지식과 추론 능력을 평가하는 벤치마크입니다.

HumanEval은 모델의 코드 생성 및 문제 해결 능력을 평가하는 벤치마크입니다.

GSM8K는 모델의 수학적 추론 및 문제 해결 능력을 평가하는 벤치마크입니다.

각 모델이 처리할 수 있는 최대 토큰 수를 비교합니다.

주요 모델들의 MMLU, HumanEval, GSM8K 벤치마크 성능을 비교합니다.