LLM 벤치마크 결과
다양한 LLM 모델의 벤치마크 성능을 비교해보세요.
MMLU 벤치마크 결과
MMLU(Massive Multitask Language Understanding)는 모델의 일반적인 지식과 추론 능력을 평가하는 벤치마크입니다.
HumanEval 벤치마크 결과
HumanEval은 모델의 코드 생성 및 문제 해결 능력을 평가하는 벤치마크입니다.
GSM8K 벤치마크 결과
GSM8K는 모델의 수학적 추론 및 문제 해결 능력을 평가하는 벤치마크입니다.
컨텍스트 윈도우 비교
각 모델이 처리할 수 있는 최대 토큰 수를 비교합니다.
주요 모델 벤치마크 비교 (레이더 차트)
주요 모델들의 MMLU, HumanEval, GSM8K 벤치마크 성능을 비교합니다.