๊ฐ์
KLUE(Korean Language Understanding Evaluation)๋ ํ๊ตญ์ด ์์ฐ์ด ์ดํด(NLU) ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ข ํฉ ๋ฒค์น๋งํฌ๋ค1. 2021๋ NAVER AI Lab, KAIST, ์์ธ๋, ์ฐ์ธ๋, Upstage, Kakao Enterprise ๋ฑ 10์ฌ ๊ฐ ๊ธฐ๊ด๊ณผ 31๋ช ์ ์ฐ๊ตฌ์๊ฐ ํ๋ ฅํ์ฌ ๊ฐ๋ฐํ๋ค.
KLUE๋ 8๊ฐ์ ๋ค์ํ NLU ๊ณผ์ ์ ๋ฐ์ดํฐ์ , ํ๊ฐ ์งํ, ๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ(KLUE-BERT, KLUE-RoBERTa)์ ํฌํจํ๋ค. ๋ชจ๋ ๋ฐ์ดํฐ๋ ์ ์๊ถ์ ์ค์ํ๋ฉฐ ์ฒ์๋ถํฐ(from scratch) ๊ตฌ์ถ๋์ด ๋๊ตฌ๋ ์ ์ฝ ์์ด ์ ๊ทผํ ์ ์๋ค.
๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
ํ๊ตญ์ด NLP์ ๊ณผ์
ํ๊ตญ์ด๋ ๊ต์ฐฉ์ด(agglutinative language)๋ก ๋ณต์กํ ํํ๋ก ์ ํน์ฑ์ ๊ฐ์ง๋ฉฐ, ์์ด ์ค์ฌ์ NLP ์ฐ๊ตฌ ์ฑ๊ณผ๋ฅผ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค. ๊ธฐ์กด ํ๊ตญ์ด NLP ๋ฆฌ์์ค๋ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๊ฐ ์์๋ค:
- ์ ์๊ถ ๋ฌธ์ ๋ก ์ ๊ทผ์ด ์ ํ์
- ๋ค์ํ ๊ณผ์ ๋ฅผ ํฌ๊ดํ์ง ๋ชปํจ
- ์ผ๊ด๋ ํ๊ฐ ํ๋ ์์ํฌ ๋ถ์ฌ
- ๊ฐ์ธ์ ๋ณด ๋ณดํธ ๋ฐ ์ค๋ฆฌ์ ๊ณ ๋ ค ๋ถ์กฑ
KLUE์ ์ค๊ณ ์์น
- ๊ณผ์ ๋ค์์ฑ: 8๊ฐ์ ์๋ก ๋ค๋ฅธ NLU ๊ณผ์ ํฌ๊ด
- ์ ๊ทผ์ฑ: ์ ์๊ถ ๋ฌธ์ ์์ด ๋๊ตฌ๋ ์ฌ์ฉ ๊ฐ๋ฅ
- ์ ํํ ์ด๋ ธํ ์ด์ : ์ฒด๊ณ์ ์ธ ์ฃผ์ ํ๋กํ ์ฝ๊ณผ ํ์ง ๊ด๋ฆฌ
- AI ์ค๋ฆฌ: ๊ฐ์ธ์ ๋ณด ๋ณดํธ ๋ฐ ํธํฅ ์ํ ๊ณ ๋ ค
8๊ฐ์ง ๋ฒค์น๋งํฌ ๊ณผ์
1. Topic Classification (TC)
๋ด์ค ํค๋๋ผ์ธ์ ์ ์น, ๊ฒฝ์ , ์ฌํ, ๋ฌธํ, ์ธ๊ณ, IT/๊ณผํ, ์คํฌ์ธ ๋ฑ์ ์ฃผ์ ๋ก ๋ถ๋ฅํ๋ ๊ณผ์ ๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 47,000๊ฐ ์ํ
2. Semantic Textual Similarity (STS)
๋ ๋ฌธ์ฅ์ ์๋ฏธ์ ์ ์ฌ๋๋ฅผ 0(์์ ํ ๋ค๋ฆ)๋ถํฐ 5(์๋ฏธ๊ฐ ๋์ผํจ)๊น์ง์ ์ค์ ๊ฐ์ผ๋ก ํ๊ฐํ๋ ๊ณผ์ ๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 11,000๊ฐ ๋ฌธ์ฅ ์
3. Natural Language Inference (NLI)
์ ์ (premise) ๋ฌธ์ฅ์ด ์ฃผ์ด์ก์ ๋ ๊ฐ์ค(hypothesis) ๋ฌธ์ฅ์ด ์ฐธ(entailment), ๊ฑฐ์ง(contradiction), ๋๋ ์ค๋ฆฝ(neutral)์ธ์ง ํ๋จํ๋ ๊ณผ์ ๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 24,000๊ฐ ๋ฌธ์ฅ ์
4. Named Entity Recognition (NER)
ํ ์คํธ์์ ์ธ๋ช (PS), ์ง๋ช (LC), ๊ธฐ๊ด๋ช (OG), ๋ ์ง(DT), ์๊ฐ(TI), ์๋(QT) ๋ฑ์ ๊ฐ์ฒด๋ช ์ ์ธ์ํ๊ณ ๋ถ๋ฅํ๋ ๊ณผ์ ๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 21,000๊ฐ ๋ฌธ์ฅ
5. Relation Extraction (RE)
๋ฌธ์ฅ ๋ด ๋ ๊ฐ์ฒด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ๋ค. ์๋ฅผ ๋ค์ด โ๊น์ฒ ์๋ ์์ธ๋ํ๊ต๋ฅผ ์กธ์ ํ๋คโ์์ (๊น์ฒ ์, ์กธ์ , ์์ธ๋ํ๊ต) ๊ด๊ณ๋ฅผ ํ์ ํ๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 33,000๊ฐ ์ํ
6. Dependency Parsing (DP)
๋ฌธ์ฅ์ ๊ตฌ๋ฌธ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ์ฌ ๋จ์ด ๊ฐ ์์กด ๊ด๊ณ(dependency)๋ฅผ ํ์ ํ๋ ๊ณผ์ ๋ค. ํ๊ตญ์ด์ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๋ฐ ํ์์ ์ด๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 10,000๊ฐ ๋ฌธ์ฅ
7. Machine Reading Comprehension (MRC)
์ง๋ฌธ์ ์ฝ๊ณ ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ๋ต์ ์ง๋ฌธ์์ ์ฐพ์๋ด๋ ๊ณผ์ ๋ค. SQuAD์ ์ ์ฌํ ํ์์ด๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 17,000๊ฐ ์ง๋ฌธ-๋ต๋ณ ์
8. Dialogue State Tracking (DST)
๋ํ ๋งฅ๋ฝ์์ ์ฌ์ฉ์์ ์๋์ ํ์ํ ์ ๋ณด(์ฌ๋กฏ)๋ฅผ ์ถ์ ํ๋ ๊ณผ์ ๋ค. ์ฑ๋ด์ด๋ ์์ฑ ๋น์ ๊ฐ๋ฐ์ ์ค์ํ๋ค.
๋ฐ์ดํฐ์ ํฌ๊ธฐ: ์ฝ 8,000๊ฐ ๋ํ
KLUE ์ฌ์ ํ์ต ๋ชจ๋ธ
KLUE ํ๋ก์ ํธ๋ ๋ฒค์น๋งํฌ์ ํจ๊ป ๋ ๊ฐ์ง ์ฌ์ ํ์ต ์ธ์ด ๋ชจ๋ธ์ ๊ณต๊ฐํ๋ค:
KLUE-BERT
BERT ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ตญ์ด ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ ๋ชจ๋ธ์ด๋ค.
๋ชจ๋ธ ๋ณํ:
- KLUE-BERT-base: 12 ๋ ์ด์ด, 768 hidden units, 12 attention heads (์ฝ 1์ต 1์ฒ๋ง ํ๋ผ๋ฏธํฐ)
- KLUE-BERT-large: 24 ๋ ์ด์ด, 1024 hidden units, 16 attention heads (์ฝ 3์ต 4์ฒ๋ง ํ๋ผ๋ฏธํฐ)
KLUE-RoBERTa
RoBERTa ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก BERT์ ํ์ต ๋ฐฉ์์ ๊ฐ์ ํ ๋ชจ๋ธ์ด๋ค. NSP(Next Sentence Prediction) ๊ณผ์ ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ ํฐ ๋ฐฐ์น์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
๋ชจ๋ธ ๋ณํ:
- KLUE-RoBERTa-small: 6 ๋ ์ด์ด, 768 hidden units (๊ฒฝ๋ํ ๋ชจ๋ธ)
- KLUE-RoBERTa-base: 12 ๋ ์ด์ด, 768 hidden units
- KLUE-RoBERTa-large: 24 ๋ ์ด์ด, 1024 hidden units
์ฑ๋ฅ
๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ KLUE-RoBERTa-large๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๊ธฐ์กด ๋ค๊ตญ์ด ๋ชจ๋ธ์ด๋ ๋ค๋ฅธ ํ๊ตญ์ด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ค.
์ฃผ์ ํน์ง
1. ์ ์๊ถ ์ค์
๋ชจ๋ ๋ฐ์ดํฐ์ ์ ์ฒ์๋ถํฐ ๊ตฌ์ถํ์ฌ ๋ผ์ด์ผ์ค ๋ฌธ์ ์์ด ์ฐ๊ตฌ ๋ฐ ์์ ์ ํ์ฉ์ด ๊ฐ๋ฅํ๋ค.
2. ๊ฐ์ธ์ ๋ณด ๋ณดํธ
๊ฐ์ธ ์๋ณ ์ ๋ณด(PII)๋ฅผ ์ ๊ฑฐํ๋ ํ๋ผ์ด๋ฒ์ ๋ณดํธ ๊ธฐ๋ฒ์ ์ ์ฉํ์ผ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ ์ฑ๋ฅ ์ ํ๊ฐ ๊ฑฐ์ ์์์ ํ์ธํ๋ค.
3. ์ค๋ฆฌ์ ๊ณ ๋ ค
๋ฐ์ดํฐ ์์ง ๋ฐ ์ฃผ์ ๊ณผ์ ์์ ํธํฅ์ ์ต์ํํ๊ณ , ์ค๋ฆฌ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ํ๋ค.
4. ์ฌํ ๊ฐ๋ฅ์ฑ
๊ฐ ๊ณผ์ ๋ณ๋ก ์์ธํ ํ๊ฐ ์งํ์ ํ์ธํ๋ ๋ ์ํผ๋ฅผ ์ ๊ณตํ์ฌ ์ฐ๊ตฌ ์ฌํ์ฑ์ ๋์๋ค.
5. ํ ํฌ๋์ด์ ์ด์
BPE(Byte Pair Encoding)์ ํํ์ ๊ธฐ๋ฐ ์ฌ์ ํ ํฌ๋์ด์ ์ด์ ์ ๊ฒฐํฉํ์ฌ ํ๊ตญ์ด์ ํํ๋ก ์ ํน์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค.
ํ์ฉ
์ฐ๊ตฌ
- ํ๊ตญ์ด NLP ๋ชจ๋ธ ๊ฐ๋ฐ ๋ฐ ํ๊ฐ์ ํ์ค ๋ฒค์น๋งํฌ
- ์๋ก์ด ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ์ธก์ ๊ธฐ์ค
- ๋ค๊ตญ์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ์ฑ๋ฅ ๋น๊ต
์ฐ์
- ํ๊ตญ์ด ์ฑ๋ด ๋ฐ ๋ํ ์์คํ ๊ฐ๋ฐ
- ๊ฒ์ ์์ง ๋ฐ ์ง์์๋ต ์์คํ
- ๊ฐ์ฑ ๋ถ์ ๋ฐ ๋ฌธ์ ๋ถ๋ฅ
- ์ ๋ณด ์ถ์ถ ๋ฐ ์ง์ ๊ทธ๋ํ ๊ตฌ์ถ
๊ต์ก
- ํ๊ตญ์ด NLP ๊ต์ก ์๋ฃ
- ํ์ ๋ฐ ์ฐ๊ตฌ์๋ฅผ ์ํ ํ์ต ๋ฆฌ์์ค
- ๊ฒฝ์ง๋ํ ๋ฐ ๊ณต์ ๊ณผ์ (shared task)
์ ๊ทผ ๋ฐฉ๋ฒ
๊ณต์ ์น์ฌ์ดํธ
https://klue-benchmark.com/์์ ๋ฆฌ๋๋ณด๋, ๋ฐ์ดํฐ์ , ๋ ผ๋ฌธ ๋ฑ์ ํ์ธํ ์ ์๋ค.
GitHub
KLUE-benchmark GitHub์์ ์ฝ๋, ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ, ํ๊ฐ ์คํฌ๋ฆฝํธ๋ฅผ ์ ๊ณตํ๋ค.
Hugging Face
Hugging Face klue์์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ง์ ์ฌ์ฉํ ์ ์๋ค:
klue/bert-base
klue/roberta-small
klue/roberta-base
klue/roberta-large
์์
KLUE๋ ํ๊ตญ์ด NLP ์ฐ๊ตฌ์ ์ด์ ํ๋ก ํ๊ฐ๋ฐ๋๋ค:
- ํ๊ตญ์ด NLP ์ํ๊ณ ํ์ฑํ: ์ ๊ทผ ๊ฐ๋ฅํ ๊ณ ํ์ง ๋ฆฌ์์ค ์ ๊ณต
- ๊ตญ์ ์์ค์ ๋ฒค์น๋งํฌ: GLUE, SuperGLUE, MMLU์ ๊ฐ์ ์์ด ๋ฒค์น๋งํฌ์ ํ์ ํ๋ ์ฒด๊ณ
- ํ์ ๋ชจ๋ธ: ํ๊ณ์ ์ฐ์ ๊ณ์ ๊ธด๋ฐํ ํ๋ ฅ ์ฌ๋ก
- ์ค๋ฆฌ์ AI: ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ํธํฅ ์ํ๋ฅผ ๊ณ ๋ คํ ๋ฐ์ดํฐ์ ๊ตฌ์ถ ๋ฐฉ๋ฒ๋ก ์ ์
- ์ฌํ ๊ฐ๋ฅํ ์ฐ๊ตฌ: ์์ธํ ํ๋กํ ์ฝ๊ณผ ์ฝ๋ ๊ณต๊ฐ๋ก ์ฐ๊ตฌ ํฌ๋ช ์ฑ ํ๋ณด
์ฐธ์ฌ ๊ธฐ๊ด
- ํธ์คํ : Upstage
- ์ฃผ์ ์ฐ๊ตฌ ๊ธฐ๊ด: NAVER AI Lab, KAIST, ์์ธ๋ํ๊ต, NYU
- ํ๋ ฅ ๊ธฐ๊ด: ์ฐ์ธ๋ํ๊ต, ๊ณ ๋ ค๋ํ๊ต, ๊ฒฝํฌ๋ํ๊ต, ํ๋ฐญ๋ํ๊ต, ์๊ฐ๋ํ๊ต, Kakao Enterprise, Scatter Lab, Riiid
- ํ์: Google, NAVER Clova, Upstage, Kakao Enterprise
์ฐธ๊ณ ์๋ฃ
- KLUE ๋ ผ๋ฌธ (arXiv)
- KLUE ๋ ผ๋ฌธ (NeurIPS 2021 Datasets and Benchmarks Track)
- KLUE ๊ณต์ ์น์ฌ์ดํธ
- KLUE GitHub ์ ์ฅ์
- KLUE Hugging Face
Footnotes
-
Park, S., Moon, J., Kim, S., et al. (2021). โKLUE: Korean Language Understanding Evaluationโ. arXiv:2105.09680. NeurIPS 2021 Datasets and Benchmarks Track. โฉ