๊ฐ์
MMLU(Massive Multitask Language Understanding)๋ 2020๋ 9์์ Dan Hendrycks์ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ๋ฒค์น๋งํฌ์ด๋ค1. ์ธ์ด ๋ชจ๋ธ์ ๋ค์ค ์์ ์ ํ๋๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ์ค๊ณ๋์์ผ๋ฉฐ, ์ธ๊ฐ์ ์ง์๊ณผ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ๋ชจ๋ธ์ zero-shot ๋ฐ few-shot ์ค์ ์์๋ง ํ๊ฐํ๋ค.
๋ฒค์น๋งํฌ ๊ตฌ์ฑ
๋ฌธ์ ๊ตฌ์กฐ
- ์ด ๋ฌธ์ ์: 15,908๊ฐ์ ๊ฐ๊ด์ ๋ฌธ์
- ๊ฒ์ฆ ์ธํธ (Validation): 1,540๊ฐ ๋ฌธ์ (๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์ต์ ํ ๋ฐ ์ค์ ์ ํ์ฉ)
- ํ๊ฐ ์ธํธ (Test): 14,368๊ฐ ๋ฌธ์ (์ค์ ์ฑ๋ฅ ํ๊ฐ์ฉ)
์ฃผ์ ๋ฒ์
57๊ฐ์ ๋ค์ํ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ํฌ๊ฒ 4๊ฐ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅ๋๋ค:
- ์ธ๋ฌธํ (Humanities)
- ์ญ์ฌ, ์ฒ ํ, ๋ฒ๋ฅ ๋ฑ
- ์ฌํ๊ณผํ (Social Sciences)
- ๊ฒฝ์ ํ, ์ฌํํ, ์ฌ๋ฆฌํ ๋ฑ
- STEM
- ์ํ, ๋ฌผ๋ฆฌํ, ์ปดํจํฐ ๊ณผํ, ์๋ฌผํ ๋ฑ
- ๊ธฐํ (Other)
- ์์ํ, ์ข ๊ตํ ๋ฑ
๊ฐ ์ฃผ์ ๋ ๊ณ ๋ฑํ๊ต ์์ค๋ถํฐ ์ ๋ฌธ๊ฐ ์์ค๊น์ง ๋ค์ํ ๋์ด๋์ ๋ฌธ์ ๋ฅผ ํฌํจํ๋ค.
๋ฌธํญ ์์
MMLU๋ ๋ค์ํ ํ๋ฌธ ๋ถ์ผ์ 4์ง์ ๋คํ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋๋ค. ๋ค์์ ์ค์ ๋ฌธํญ์ ์์์ด๋ค2:
์ถ์ ๋์ํ (Abstract Algebra)
Find all c in Z3 such that Z3[x]/(xยฒ+c) is a field.
(A) 0 (B) 1 โ (C) 2 (D) 0 and 1
๊ตญ์ ๋ฒ (International Law)
Would a reservation to the definition of torture in the ICCPR be acceptable in contemporary practice?
(A) This is an acceptable reservation if the reserving countryโs legislation employs a different definition (B) This is an unacceptable reservation because it contravenes the object and purpose of the ICCPR โ (C) This is an unacceptable reservation because the definition of torture in the ICCPR is consistent with customary international law (D) This is an acceptable reservation because under general international law States have the right to enter reservations to treaties
์ ๋ฌธ ์ํ (Professional Medicine)
A 33-year-old man undergoes a radical thyroidectomy for thyroid cancerโฆ Which vessel damage caused the findings?
(A) Branch of the external carotid artery (B) Branch of the internal carotid artery (C) Branch of the thyrocervical trunk โ (D) Branch of the vertebral artery
ํ๊ฐ ๋ฐฉ์
๊ธฐ๋ณธ ์ค์
- Zero-shot: ์ฌ์ ํ์ต ์ค ์ต๋ํ ์ง์๋ง์ผ๋ก ํ๊ฐ
- Few-shot: ์์์ ์์๋ฅผ ์ ๊ณตํ ํ ํ๊ฐ
- ๋ฒ ์ด์ค๋ผ์ธ: 25% (4์ง์ ๋คํ ๋ฌด์์ ์ถ์ธก)
ํ๊ฐ ์งํ
๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๋ฐฑ๋ถ์จ๋ก ์ธก์ ํ๋ฉฐ, ๊ฐ ์ฃผ์ ๋ณ ์ฑ๋ฅ๊ณผ ์ ์ฒด ํ๊ท ์ฑ๋ฅ์ ํจ๊ป ๋ณด๊ณ ํ๋ค.
์ฑ๋ฅ ์ถ์ด
์ด๊ธฐ ์ฑ๋ฅ (2020-2021)
๋ ผ๋ฌธ ๋ฐํ ๋น์, ๋๋ถ๋ถ์ ์ธ์ด ๋ชจ๋ธ์ ๊ฑฐ์ ๋ฌด์์ ์์ค(25%)์ ๊ฐ๊น์ด ์ฑ๋ฅ์ ๋ณด์๋ค:
- GPT-3 175B (few-shot): 43.9%
- GPT-3 175B (fine-tuned): 53.9%
- ๊ฐ์ฅ ํฐ GPT-3 ๋ชจ๋ธ๋ ๋ฌด์์ ์ถ์ธก๋ณด๋ค ์ฝ 20% ํฌ์ธํธ๋ง ํฅ์
์ฐ๊ตฌ์ง์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ์ ํ๋๋ฅผ ์ฝ 89.8%๋ก ์ถ์ ํ๋ค.
์ต์ ์ฑ๋ฅ (2024-2025)
2024๋ ์ดํ ์ต์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์์ค(89.8%)์ ๊ทผ์ ํ๊ฑฐ๋ ์ด๊ณผํ๋ค3:
๋ชจ๋ธ | MMLU ์ ์ | ์ถ์ ์๊ธฐ |
---|---|---|
GPT-5 | 91.4% | 2025 |
GPT-4.1 | 90.2% | 2025 |
Claude Opus 4 | 88.8% | 2025 |
Claude 3.5 Sonnet | 88.7% | 2024 |
GPT-4o | 88.7% | 2024 |
Llama 3.1 405B | 88.6% | 2024 |
์ฃผ์ ์ฑ๊ณผ:
- GPT-5๊ฐ 91.4%๋ก ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์์ค์ ์ต์ด๋ก ์ด๊ณผ
- GPT-4.1์ด 90.2%๋ก ์ธ๊ฐ ์์ค ๋ํ
- 2024-2025๋ ์ฃผ์ ๋ชจ๋ธ๋ค์ด 88-91% ๋ฒ์์ ๋ฐ์ง๋์ด ๋์ ์์ค์ ๊ฒฝ์ ๊ตฌ๋ ํ์ฑ
์ํฅ๊ณผ ํ์ฉ
์ ๊ณ ์ํฅ
- 2024๋ 7์ ๊ธฐ์ค 1์ต ํ ์ด์ ๋ค์ด๋ก๋4
- ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ๊ณผ ํ๊ฐ์ ํ์ค ๋ฒค์น๋งํฌ๋ก ์๋ฆฌ์ก์
- ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ๋น๊ต์ ๊ธฐ์ค์ ์ ๊ณต
ํ์ ์ฐ๊ตฌ
MMLU์ ์ฑ๊ณต์ ์ฌ๋ฌ ํ์ ๋ฒค์น๋งํฌ๋ฅผ ํ์์์ผฐ๋ค:
- MMLU-Pro (2024): ๋ ์ด๋ ต๊ณ ๊ฒฌ๊ณ ํ ํ๊ฐ๋ฅผ ์ํด ์ค๊ณ5
- ๊ธฐํ ๋ค์ํ ๋ฉํฐํ์คํฌ ํ๊ฐ ๋ฒค์น๋งํฌ
ํ๊ณ์
๋ฐ์ดํฐ ํ์ง ๋ฌธ์
2024๋ ๋ถ์ ๊ฒฐ๊ณผ, MMLU๋ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ์ด ๋ฐ๊ฒฌ๋์๋ค6:
- 5,700๊ฐ ๋ฌธ์ ๋ถ์ ๊ฒฐ๊ณผ ์ฝ 6.5%์ ์ ๋ต ์ค๋ฅ ์กด์ฌ
- ์๋ชป๋ ์ ๋ต, ๋ชจํธํ ๋ฌธ์ ํํ ๋ฑ์ ํ์ง ์ด์
๋ฐ์ดํฐ ์ค์ผ ๋ฌธ์
- Data Contamination: ํ์ต ๋ฐ์ดํฐ์ ๋ฒค์น๋งํฌ ๋ฌธ์ ๊ฐ ํฌํจ๋ ๊ฐ๋ฅ์ฑ
- ๋ชจ๋ธ์ด ์ค์ ์ดํด ์์ด ์๊ธฐ๋ฅผ ํตํด ๋์ ์ ์๋ฅผ ์ป์ ์ ์์
- ๋ฒค์น๋งํฌ์ ์ ๋ขฐ์ฑ์ ์ํฅ
์ฑ๋ฅ ํฌํ์ ๋ณด์ ๋ฒค์น๋งํฌ
- 2025๋ ๊ธฐ์ค, MMLU๋ ์ฌ์ ํ ๋๋ฆฌ ์ฌ์ฉ๋์ง๋ง ์ต์ ๋ชจ๋ธ๋ค์ด ์ธ๊ฐ ์์ค(89.8%)์ ๊ทผ์ ํ๊ฑฐ๋ ์ด๊ณผํ๋ฉด์ ๋ณ๋ณ๋ ฅ์ด ์ ํ๋๊ณ ์์
- ์ด์ ๋ฐ๋ผ MMLU-Pro ๋ฑ ๋ ์ด๋ ค์ด ๋ณํ ๋ฒค์น๋งํฌ๋ค์ด ๋ฑ์ฅํ์ฌ ๋ณด์์ ์ผ๋ก ํ์ฉ๋๊ณ ์์
๋ฐ์ดํฐ์ ๋ค์ด๋ก๋
MMLU ๋ฐ์ดํฐ์ ์ ๋ค์ ๋ฐฉ๋ฒ์ผ๋ก ๋ค์ด๋ก๋ํ ์ ์๋ค:
์ง์ ๋ค์ด๋ก๋
- ๊ณต์ ๋ฐ์ดํฐ์ (tar ํ์ผ) - UC Berkeley ๊ณต์ ๋ฐฐํฌ
Hugging Face
Hugging Face datasets ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ์ฝ๊ฒ ๋ค์ด๋ก๋ ๊ฐ๋ฅ:
from datasets import load_dataset
dataset = load_dataset("cais/mmlu")
๋ฐ์ดํฐ์ ๊ตฌ์กฐ:
- question: ๊ฐ๊ด์ ๋ฌธ์ ํ ์คํธ
- subject: ๋ฌธ์ ์ ์ฃผ์ ๋ถ๋ฅ
- choices: 4๊ฐ์ ์ ํ์ง ๋ชฉ๋ก
- answer: ์ ๋ต ์ธ๋ฑ์ค (0-3, A-D์ ํด๋น)
์ฐธ๊ณ ์๋ฃ
- MMLU ๋ ผ๋ฌธ (arXiv)
- MMLU GitHub ๋ ํฌ์งํ ๋ฆฌ
- MMLU ๋ฐ์ดํฐ์ (Hugging Face)
- MMLU Wikipedia
- HELM MMLU ํ๊ฐ
Footnotes
-
Hendrycks, D., et al. (2020). โMeasuring Massive Multitask Language Understandingโ. arXiv:2009.03300. ICLR 2021์์ ๋ฐํ๋จ. โฉ
-
Wikipedia, โMMLUโ ํญ๋ชฉ์์ ์ธ์ฉ โฉ
-
GraphLogic AI, DataCamp, Artificial Analysis, OpenAI, Anthropic ๋ฑ ๊ณต์ ๋ฐํ ๋ฐ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ ์ข ํฉ (2024-2025) โฉ
-
Wikipedia, โMMLUโ ํญ๋ชฉ (2024๋ 7์ ๊ธฐ์ค) โฉ
-
arXiv:2406.01574 โMMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmarkโ (NeurIPS 2024) โฉ
-
2024๋ 6์ ๋ถ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ โฉ