LLM 모델 비교

LLM 벤치마크 결과

다양한 LLM 모델의 벤치마크 성능을 비교해보세요.

MMLU 벤치마크 결과

MMLU(Massive Multitask Language Understanding)는 모델의 일반적인 지식과 추론 능력을 평가하는 벤치마크입니다.

HumanEval 벤치마크 결과

HumanEval은 모델의 코드 생성 및 문제 해결 능력을 평가하는 벤치마크입니다.

GSM8K 벤치마크 결과

GSM8K는 모델의 수학적 추론 및 문제 해결 능력을 평가하는 벤치마크입니다.

컨텍스트 윈도우 비교

각 모델이 처리할 수 있는 최대 토큰 수를 비교합니다.

주요 모델 벤치마크 비교 (레이더 차트)

주요 모델들의 MMLU, HumanEval, GSM8K 벤치마크 성능을 비교합니다.