๊ฐœ์š”

KLUE(Korean Language Understanding Evaluation)๋Š” ํ•œ๊ตญ์–ด ์ž์—ฐ์–ด ์ดํ•ด(NLU) ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋‹ค1. 2021๋…„ NAVER AI Lab, KAIST, ์„œ์šธ๋Œ€, ์—ฐ์„ธ๋Œ€, Upstage, Kakao Enterprise ๋“ฑ 10์—ฌ ๊ฐœ ๊ธฐ๊ด€๊ณผ 31๋ช…์˜ ์—ฐ๊ตฌ์ž๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

KLUE๋Š” 8๊ฐœ์˜ ๋‹ค์–‘ํ•œ NLU ๊ณผ์ œ์™€ ๋ฐ์ดํ„ฐ์…‹, ํ‰๊ฐ€ ์ง€ํ‘œ, ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ(KLUE-BERT, KLUE-RoBERTa)์„ ํฌํ•จํ•œ๋‹ค. ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋Š” ์ €์ž‘๊ถŒ์„ ์ค€์ˆ˜ํ•˜๋ฉฐ ์ฒ˜์Œ๋ถ€ํ„ฐ(from scratch) ๊ตฌ์ถ•๋˜์–ด ๋ˆ„๊ตฌ๋‚˜ ์ œ์•ฝ ์—†์ด ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

ํ•œ๊ตญ์–ด NLP์˜ ๊ณผ์ œ

ํ•œ๊ตญ์–ด๋Š” ๊ต์ฐฉ์–ด(agglutinative language)๋กœ ๋ณต์žกํ•œ ํ˜•ํƒœ๋ก ์  ํŠน์„ฑ์„ ๊ฐ€์ง€๋ฉฐ, ์˜์–ด ์ค‘์‹ฌ์˜ NLP ์—ฐ๊ตฌ ์„ฑ๊ณผ๋ฅผ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ๊ธฐ์กด ํ•œ๊ตญ์–ด NLP ๋ฆฌ์†Œ์Šค๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค:

  • ์ €์ž‘๊ถŒ ๋ฌธ์ œ๋กœ ์ ‘๊ทผ์ด ์ œํ•œ์ 
  • ๋‹ค์–‘ํ•œ ๊ณผ์ œ๋ฅผ ํฌ๊ด„ํ•˜์ง€ ๋ชปํ•จ
  • ์ผ๊ด€๋œ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋ถ€์žฌ
  • ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ๋ฐ ์œค๋ฆฌ์  ๊ณ ๋ ค ๋ถ€์กฑ

KLUE์˜ ์„ค๊ณ„ ์›์น™

  1. ๊ณผ์ œ ๋‹ค์–‘์„ฑ: 8๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ NLU ๊ณผ์ œ ํฌ๊ด„
  2. ์ ‘๊ทผ์„ฑ: ์ €์ž‘๊ถŒ ๋ฌธ์ œ ์—†์ด ๋ˆ„๊ตฌ๋‚˜ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  3. ์ •ํ™•ํ•œ ์–ด๋…ธํ…Œ์ด์…˜: ์ฒด๊ณ„์ ์ธ ์ฃผ์„ ํ”„๋กœํ† ์ฝœ๊ณผ ํ’ˆ์งˆ ๊ด€๋ฆฌ
  4. AI ์œค๋ฆฌ: ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ๋ฐ ํŽธํ–ฅ ์™„ํ™” ๊ณ ๋ ค

8๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ

1. Topic Classification (TC)

๋‰ด์Šค ํ—ค๋“œ๋ผ์ธ์„ ์ •์น˜, ๊ฒฝ์ œ, ์‚ฌํšŒ, ๋ฌธํ™”, ์„ธ๊ณ„, IT/๊ณผํ•™, ์Šคํฌ์ธ  ๋“ฑ์˜ ์ฃผ์ œ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ œ๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 47,000๊ฐœ ์ƒ˜ํ”Œ

2. Semantic Textual Similarity (STS)

๋‘ ๋ฌธ์žฅ์˜ ์˜๋ฏธ์  ์œ ์‚ฌ๋„๋ฅผ 0(์™„์ „ํžˆ ๋‹ค๋ฆ„)๋ถ€ํ„ฐ 5(์˜๋ฏธ๊ฐ€ ๋™์ผํ•จ)๊นŒ์ง€์˜ ์‹ค์ˆ˜ ๊ฐ’์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ณผ์ œ๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 11,000๊ฐœ ๋ฌธ์žฅ ์Œ

3. Natural Language Inference (NLI)

์ „์ œ(premise) ๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ฐ€์„ค(hypothesis) ๋ฌธ์žฅ์ด ์ฐธ(entailment), ๊ฑฐ์ง“(contradiction), ๋˜๋Š” ์ค‘๋ฆฝ(neutral)์ธ์ง€ ํŒ๋‹จํ•˜๋Š” ๊ณผ์ œ๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 24,000๊ฐœ ๋ฌธ์žฅ ์Œ

4. Named Entity Recognition (NER)

ํ…์ŠคํŠธ์—์„œ ์ธ๋ช…(PS), ์ง€๋ช…(LC), ๊ธฐ๊ด€๋ช…(OG), ๋‚ ์งœ(DT), ์‹œ๊ฐ„(TI), ์ˆ˜๋Ÿ‰(QT) ๋“ฑ์˜ ๊ฐœ์ฒด๋ช…์„ ์ธ์‹ํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ œ๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 21,000๊ฐœ ๋ฌธ์žฅ

5. Relation Extraction (RE)

๋ฌธ์žฅ ๋‚ด ๋‘ ๊ฐœ์ฒด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ณผ์ œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๊น€์ฒ ์ˆ˜๋Š” ์„œ์šธ๋Œ€ํ•™๊ต๋ฅผ ์กธ์—…ํ–ˆ๋‹คโ€์—์„œ (๊น€์ฒ ์ˆ˜, ์กธ์—…, ์„œ์šธ๋Œ€ํ•™๊ต) ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•œ๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 33,000๊ฐœ ์ƒ˜ํ”Œ

6. Dependency Parsing (DP)

๋ฌธ์žฅ์˜ ๊ตฌ๋ฌธ ๊ตฌ์กฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๋‹จ์–ด ๊ฐ„ ์˜์กด ๊ด€๊ณ„(dependency)๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ณผ์ œ๋‹ค. ํ•œ๊ตญ์–ด์˜ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 10,000๊ฐœ ๋ฌธ์žฅ

7. Machine Reading Comprehension (MRC)

์ง€๋ฌธ์„ ์ฝ๊ณ  ์ฃผ์–ด์ง„ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์„ ์ง€๋ฌธ์—์„œ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ œ๋‹ค. SQuAD์™€ ์œ ์‚ฌํ•œ ํ˜•์‹์ด๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 17,000๊ฐœ ์งˆ๋ฌธ-๋‹ต๋ณ€ ์Œ

8. Dialogue State Tracking (DST)

๋Œ€ํ™” ๋งฅ๋ฝ์—์„œ ์‚ฌ์šฉ์ž์˜ ์˜๋„์™€ ํ•„์š”ํ•œ ์ •๋ณด(์Šฌ๋กฏ)๋ฅผ ์ถ”์ ํ•˜๋Š” ๊ณผ์ œ๋‹ค. ์ฑ—๋ด‡์ด๋‚˜ ์Œ์„ฑ ๋น„์„œ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•˜๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ: ์•ฝ 8,000๊ฐœ ๋Œ€ํ™”

KLUE ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ

KLUE ํ”„๋กœ์ ํŠธ๋Š” ๋ฒค์น˜๋งˆํฌ์™€ ํ•จ๊ป˜ ๋‘ ๊ฐ€์ง€ ์‚ฌ์ „ ํ•™์Šต ์–ธ์–ด ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ๋‹ค:

KLUE-BERT

BERT ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๊ตญ์–ด ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด๋‹ค.

๋ชจ๋ธ ๋ณ€ํ˜•:

  • KLUE-BERT-base: 12 ๋ ˆ์ด์–ด, 768 hidden units, 12 attention heads (์•ฝ 1์–ต 1์ฒœ๋งŒ ํŒŒ๋ผ๋ฏธํ„ฐ)
  • KLUE-BERT-large: 24 ๋ ˆ์ด์–ด, 1024 hidden units, 16 attention heads (์•ฝ 3์–ต 4์ฒœ๋งŒ ํŒŒ๋ผ๋ฏธํ„ฐ)

KLUE-RoBERTa

RoBERTa ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ BERT์˜ ํ•™์Šต ๋ฐฉ์‹์„ ๊ฐœ์„ ํ•œ ๋ชจ๋ธ์ด๋‹ค. NSP(Next Sentence Prediction) ๊ณผ์ œ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ๋” ํฐ ๋ฐฐ์น˜์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

๋ชจ๋ธ ๋ณ€ํ˜•:

  • KLUE-RoBERTa-small: 6 ๋ ˆ์ด์–ด, 768 hidden units (๊ฒฝ๋Ÿ‰ํ™” ๋ชจ๋ธ)
  • KLUE-RoBERTa-base: 12 ๋ ˆ์ด์–ด, 768 hidden units
  • KLUE-RoBERTa-large: 24 ๋ ˆ์ด์–ด, 1024 hidden units

์„ฑ๋Šฅ

๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ KLUE-RoBERTa-large๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๊ธฐ์กด ๋‹ค๊ตญ์–ด ๋ชจ๋ธ์ด๋‚˜ ๋‹ค๋ฅธ ํ•œ๊ตญ์–ด ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

1. ์ €์ž‘๊ถŒ ์ค€์ˆ˜

๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ผ์ด์„ผ์Šค ๋ฌธ์ œ ์—†์ด ์—ฐ๊ตฌ ๋ฐ ์ƒ์—…์  ํ™œ์šฉ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

2. ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ

๊ฐœ์ธ ์‹๋ณ„ ์ •๋ณด(PII)๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ ๊ธฐ๋ฒ•์„ ์ ์šฉํ–ˆ์œผ๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๊ฑฐ์˜ ์—†์Œ์„ ํ™•์ธํ–ˆ๋‹ค.

3. ์œค๋ฆฌ์  ๊ณ ๋ ค

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ฃผ์„ ๊ณผ์ •์—์„œ ํŽธํ–ฅ์„ ์ตœ์†Œํ™”ํ•˜๊ณ , ์œค๋ฆฌ ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ค€์ˆ˜ํ–ˆ๋‹ค.

4. ์žฌํ˜„ ๊ฐ€๋Šฅ์„ฑ

๊ฐ ๊ณผ์ œ๋ณ„๋กœ ์ƒ์„ธํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ์™€ ํŒŒ์ธํŠœ๋‹ ๋ ˆ์‹œํ”ผ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์—ฐ๊ตฌ ์žฌํ˜„์„ฑ์„ ๋†’์˜€๋‹ค.

5. ํ† ํฌ๋‚˜์ด์ œ์ด์…˜

BPE(Byte Pair Encoding)์™€ ํ˜•ํƒœ์†Œ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ ํ† ํฌ๋‚˜์ด์ œ์ด์…˜์„ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•œ๊ตญ์–ด์˜ ํ˜•ํƒœ๋ก ์  ํŠน์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ–ˆ๋‹ค.

ํ™œ์šฉ

์—ฐ๊ตฌ

  • ํ•œ๊ตญ์–ด NLP ๋ชจ๋ธ ๊ฐœ๋ฐœ ๋ฐ ํ‰๊ฐ€์˜ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ
  • ์ƒˆ๋กœ์šด ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ธก์ • ๊ธฐ์ค€
  • ๋‹ค๊ตญ์–ด ๋ชจ๋ธ์˜ ํ•œ๊ตญ์–ด ์„ฑ๋Šฅ ๋น„๊ต

์‚ฐ์—…

  • ํ•œ๊ตญ์–ด ์ฑ—๋ด‡ ๋ฐ ๋Œ€ํ™” ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ
  • ๊ฒ€์ƒ‰ ์—”์ง„ ๋ฐ ์งˆ์˜์‘๋‹ต ์‹œ์Šคํ…œ
  • ๊ฐ์„ฑ ๋ถ„์„ ๋ฐ ๋ฌธ์„œ ๋ถ„๋ฅ˜
  • ์ •๋ณด ์ถ”์ถœ ๋ฐ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•

๊ต์œก

  • ํ•œ๊ตญ์–ด NLP ๊ต์œก ์ž๋ฃŒ
  • ํ•™์ƒ ๋ฐ ์—ฐ๊ตฌ์ž๋ฅผ ์œ„ํ•œ ํ•™์Šต ๋ฆฌ์†Œ์Šค
  • ๊ฒฝ์ง„๋Œ€ํšŒ ๋ฐ ๊ณต์œ  ๊ณผ์ œ(shared task)

์ ‘๊ทผ ๋ฐฉ๋ฒ•

๊ณต์‹ ์›น์‚ฌ์ดํŠธ

https://klue-benchmark.com/์—์„œ ๋ฆฌ๋”๋ณด๋“œ, ๋ฐ์ดํ„ฐ์…‹, ๋…ผ๋ฌธ ๋“ฑ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

GitHub

KLUE-benchmark GitHub์—์„œ ์ฝ”๋“œ, ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ, ํ‰๊ฐ€ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

Hugging Face

Hugging Face klue์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ง์ ‘ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค:

  • klue/bert-base
  • klue/roberta-small
  • klue/roberta-base
  • klue/roberta-large

์˜์˜

KLUE๋Š” ํ•œ๊ตญ์–ด NLP ์—ฐ๊ตฌ์˜ ์ด์ •ํ‘œ๋กœ ํ‰๊ฐ€๋ฐ›๋Š”๋‹ค:

  1. ํ•œ๊ตญ์–ด NLP ์ƒํƒœ๊ณ„ ํ™œ์„ฑํ™”: ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ ๊ณ ํ’ˆ์งˆ ๋ฆฌ์†Œ์Šค ์ œ๊ณต
  2. ๊ตญ์ œ ์ˆ˜์ค€์˜ ๋ฒค์น˜๋งˆํฌ: GLUE, SuperGLUE, MMLU์™€ ๊ฐ™์€ ์˜์–ด ๋ฒค์น˜๋งˆํฌ์— ํ•„์ ํ•˜๋Š” ์ฒด๊ณ„
  3. ํ˜‘์—… ๋ชจ๋ธ: ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„์˜ ๊ธด๋ฐ€ํ•œ ํ˜‘๋ ฅ ์‚ฌ๋ก€
  4. ์œค๋ฆฌ์  AI: ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์™€ ํŽธํ–ฅ ์™„ํ™”๋ฅผ ๊ณ ๋ คํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐฉ๋ฒ•๋ก  ์ œ์‹œ
  5. ์žฌํ˜„ ๊ฐ€๋Šฅํ•œ ์—ฐ๊ตฌ: ์ƒ์„ธํ•œ ํ”„๋กœํ† ์ฝœ๊ณผ ์ฝ”๋“œ ๊ณต๊ฐœ๋กœ ์—ฐ๊ตฌ ํˆฌ๋ช…์„ฑ ํ™•๋ณด

์ฐธ์—ฌ ๊ธฐ๊ด€

  • ํ˜ธ์ŠคํŒ…: Upstage
  • ์ฃผ์š” ์—ฐ๊ตฌ ๊ธฐ๊ด€: NAVER AI Lab, KAIST, ์„œ์šธ๋Œ€ํ•™๊ต, NYU
  • ํ˜‘๋ ฅ ๊ธฐ๊ด€: ์—ฐ์„ธ๋Œ€ํ•™๊ต, ๊ณ ๋ ค๋Œ€ํ•™๊ต, ๊ฒฝํฌ๋Œ€ํ•™๊ต, ํ•œ๋ฐญ๋Œ€ํ•™๊ต, ์„œ๊ฐ•๋Œ€ํ•™๊ต, Kakao Enterprise, Scatter Lab, Riiid
  • ํ›„์›: Google, NAVER Clova, Upstage, Kakao Enterprise

์ฐธ๊ณ  ์ž๋ฃŒ

Footnotes

  1. Park, S., Moon, J., Kim, S., et al. (2021). โ€œKLUE: Korean Language Understanding Evaluationโ€. arXiv:2105.09680. NeurIPS 2021 Datasets and Benchmarks Track. โ†ฉ