MMLU (Massive Multitask Language Understanding)

개요

MMLU(Massive Multitask Language Understanding)는 2020년 9월에 Dan Hendrycks와 연구진이 발표한 대규모 언어 모델 벤치마크이다¹. 언어 모델의 다중 작업 정확도를 측정하기 위해 설계되었으며, 인간의 지식과 문제 해결 능력을 평가하는 방식과 유사하게 모델을 zero-shot 및 few-shot 설정에서만 평가한다.

벤치마크 구성

문제 구조

총 문제 수: 15,908개의 객관식 문제
검증 세트 (Validation): 1,540개 문제 (모델 파라미터 최적화 및 설정 선택용)
평가 세트 (Test): 14,368개 문제 (실제 성능 평가용)

주제 범위

57개의 다양한 주제를 다루며, 크게 4개 카테고리로 분류된다:

인문학 (Humanities)
- 역사, 철학, 법률 등
사회과학 (Social Sciences)
- 경제학, 사회학, 심리학 등
STEM
- 수학, 물리학, 컴퓨터 과학, 생물학 등
기타 (Other)
- 영양학, 종교학 등

각 주제는 고등학교 수준부터 전문가 수준까지 다양한 난이도의 문제를 포함한다.

문항 예시

MMLU는 다양한 학문 분야의 4지선다형 문제로 구성된다. 다음은 실제 문항의 예시이다²:

추상 대수학 (Abstract Algebra)

Find all c in Z3 such that Z3[x]/(x²+c) is a field.

(A) 0 (B) 1 ✓ (C) 2 (D) 0 and 1

국제법 (International Law)

Would a reservation to the definition of torture in the ICCPR be acceptable in contemporary practice?

(A) This is an acceptable reservation if the reserving country’s legislation employs a different definition (B) This is an unacceptable reservation because it contravenes the object and purpose of the ICCPR ✓ (C) This is an unacceptable reservation because the definition of torture in the ICCPR is consistent with customary international law (D) This is an acceptable reservation because under general international law States have the right to enter reservations to treaties

전문 의학 (Professional Medicine)

A 33-year-old man undergoes a radical thyroidectomy for thyroid cancer… Which vessel damage caused the findings?

(A) Branch of the external carotid artery (B) Branch of the internal carotid artery (C) Branch of the thyrocervical trunk ✓ (D) Branch of the vertebral artery

평가 방식

기본 설정

Zero-shot: 사전 학습 중 습득한 지식만으로 평가
Few-shot: 소수의 예시를 제공한 후 평가
베이스라인: 25% (4지선다형 무작위 추측)

평가 지표

모델의 정확도를 백분율로 측정하며, 각 주제별 성능과 전체 평균 성능을 함께 보고한다.

성능 추이

초기 성능 (2020-2021)

논문 발표 당시, 대부분의 언어 모델은 거의 무작위 수준(25%)에 가까운 성능을 보였다:

GPT-3 175B (few-shot): 43.9%
GPT-3 175B (fine-tuned): 53.9%
가장 큰 GPT-3 모델도 무작위 추측보다 약 20% 포인트만 향상

연구진은 인간 전문가의 정확도를 약 89.8%로 추정했다.

모델	MMLU 점수	출시 시기
GPT-5	91.4%	2025
GPT-4.1	90.2%	2025
Claude Opus 4	88.8%	2025
Claude 3.5 Sonnet	88.7%	2024
GPT-4o	88.7%	2024
Llama 3.1 405B	88.6%	2024

영향과 활용

업계 영향

2024년 7월 기준 1억 회 이상 다운로드⁴
언어 모델 개발과 평가의 표준 벤치마크로 자리잡음
모델 간 성능 비교의 기준점 제공

후속 연구

MMLU의 성공은 여러 파생 벤치마크를 탄생시켰다:

MMLU-Pro (2024): 더 어렵고 견고한 평가를 위해 설계⁵
기타 다양한 멀티태스크 평가 벤치마크

한계점

데이터 품질 문제

2024년 분석 결과, MMLU는 다음과 같은 문제점이 발견되었다⁶:

5,700개 문제 분석 결과 약 6.5%의 정답 오류 존재
잘못된 정답, 모호한 문제 표현 등의 품질 이슈

데이터 오염 문제

Data Contamination: 학습 데이터에 벤치마크 문제가 포함될 가능성
모델이 실제 이해 없이 암기를 통해 높은 점수를 얻을 수 있음
벤치마크의 신뢰성에 영향

성능 포화와 보완 벤치마크

2025년 기준, MMLU는 여전히 널리 사용되지만 최신 모델들이 인간 수준(89.8%)에 근접하거나 초과하면서 변별력이 저하되고 있음
이에 따라 MMLU-Pro 등 더 어려운 변형 벤치마크들이 등장하여 보완적으로 활용되고 있음

데이터셋 다운로드

MMLU 데이터셋은 다음 방법으로 다운로드할 수 있다:

직접 다운로드

공식 데이터셋 (tar 파일) - UC Berkeley 공식 배포

Hugging Face

Hugging Face datasets 라이브러리를 통해 쉽게 다운로드 가능:

from datasets import load_dataset
dataset = load_dataset("cais/mmlu")

데이터셋 구조:

question: 객관식 문제 텍스트
subject: 문제의 주제 분류
choices: 4개의 선택지 목록
answer: 정답 인덱스 (0-3, A-D에 해당)

참고 자료

Hendrycks, D., et al. (2020). “Measuring Massive Multitask Language Understanding”. arXiv:2009.03300. ICLR 2021에서 발표됨. ↩
Wikipedia, “MMLU” 항목에서 인용 ↩
GraphLogic AI, DataCamp, Artificial Analysis, OpenAI, Anthropic 등 공식 발표 및 벤치마크 결과 종합 (2024-2025) ↩
Wikipedia, “MMLU” 항목 (2024년 7월 기준) ↩
arXiv:2406.01574 “MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark” (NeurIPS 2024) ↩
2024년 6월 분석 연구 결과 ↩

📚개자봉의 공책

분류

최근 글

Jakob's Law (야콥의 법칙)

Jakob Nielsen의 10가지 유저빌리티 휴리스틱 (Jakob Nielsen's 10 Usability Heuristics)

MacOS에서 Docker를 이용해서 OpenSearch 3.2, Nori 플러그인, Dashboards 설치하기

MMLU (Massive Multitask Language Understanding)

개요

벤치마크 구성

문제 구조

주제 범위

문항 예시

평가 방식

기본 설정

평가 지표

성능 추이

초기 성능 (2020-2021)

최신 성능 (2024-2025)

영향과 활용

업계 영향

후속 연구

한계점

데이터 품질 문제

데이터 오염 문제

성능 포화와 보완 벤치마크

데이터셋 다운로드

직접 다운로드

Hugging Face

참고 자료

그래프 뷰

목차

📚개자봉의 공책

분류

최근 글

Jakob's Law (야콥의 법칙)

Jakob Nielsen의 10가지 유저빌리티 휴리스틱 (Jakob Nielsen's 10 Usability Heuristics)

MacOS에서 Docker를 이용해서 OpenSearch 3.2, Nori 플러그인, Dashboards 설치하기

MMLU (Massive Multitask Language Understanding)

개요

벤치마크 구성

문제 구조

주제 범위

문항 예시

평가 방식

기본 설정

평가 지표

성능 추이

초기 성능 (2020-2021)

최신 성능 (2024-2025)

영향과 활용

업계 영향

후속 연구

한계점

데이터 품질 문제

데이터 오염 문제

성능 포화와 보완 벤치마크

데이터셋 다운로드

직접 다운로드

Hugging Face

참고 자료

Footnotes

그래프 뷰

목차