๊ฐœ์š”

๋ฐ€์ง‘ ๋ฒกํ„ฐ(Dense Vector)๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์ฐจ์›์— 0์ด ์•„๋‹Œ ์˜๋ฏธ ์žˆ๋Š” ๊ฐ’์ด ๋“ค์–ด์žˆ๋Š” ์ €์ฐจ์› ๋ฒกํ„ฐ๋‹ค. ์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ํ•™์Šต๋˜๋ฉฐ, ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ๋ฒกํ„ฐ ๊ณต๊ฐ„์ƒ์˜ ๊ฑฐ๋ฆฌ๋กœ ํ‘œํ˜„ํ•œ๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ 100~1000 ์ฐจ์› ์ •๋„์˜ ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์€ ์ฐจ์›์„ ๊ฐ€์ง€๋ฉฐ, ์œ ์‚ฌํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋Š” ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ๊ฐ€๊นŒ์ด ์œ„์น˜ํ•œ๋‹ค. ํ˜„๋Œ€ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์™€ ์ถ”์ฒœ ์‹œ์Šคํ…œ์—์„œ ํ•ต์‹ฌ์ ์ธ ํ‘œํ˜„ ๋ฐฉ์‹์œผ๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ค.

ํŠน์„ฑ

  • ์ €์ฐจ์›: ๋ณดํ†ต 100~1000 ์ฐจ์›
  • ๋ฐ€์ง‘์„ฑ: ๊ฑฐ์˜ ๋ชจ๋“  ์ฐจ์›์ด 0์ด ์•„๋‹Œ ๊ฐ’
  • ํ•™์Šต ๊ธฐ๋ฐ˜: ์‹ ๊ฒฝ๋ง์ด ๋ฐ์ดํ„ฐ์—์„œ ์ž๋™์œผ๋กœ ํ‘œํ˜„์„ ํ•™์Šต
  • ์˜๋ฏธ ํ‘œํ˜„: ์œ ์‚ฌํ•œ ์˜๋ฏธ๋Š” ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ๊ฐ€๊นŒ์šด ์œ„์น˜์— ๋ฐฐ์น˜
  • ์—ฐ์†์ : ์‹ค์ˆ˜ ๊ฐ’์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ๋ฏธ๋ถ„ ๊ฐ€๋Šฅ

์ƒ์„ฑ ๋ฐฉ๋ฒ•

Word2Vec

๋‹จ์–ด๋ฅผ ์ €์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋งคํ•‘ํ•˜๋Š” ์ดˆ๊ธฐ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์ด๋‹ค. Skip-gram ๋˜๋Š” CBOW(Continuous Bag of Words) ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์–ด์˜ ๋ฌธ๋งฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฒกํ„ฐ๋ฅผ ํ•™์Šตํ•œ๋‹ค.

์œ ๋ช…ํ•œ ์˜ˆ์‹œ๋กœ โ€œking - man + woman โ‰ˆ queenโ€ ๊ฐ™์€ ์˜๋ฏธ์  ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. 2013๋…„ Google์ด ๋ฐœํ‘œํ•˜์—ฌ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์˜ ๋Œ€์ค‘ํ™”๋ฅผ ์ด๋Œ์—ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•:

  • Skip-gram: ์ค‘์‹ฌ ๋‹จ์–ด๋กœ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก
  • CBOW: ์ฃผ๋ณ€ ๋‹จ์–ด๋กœ ์ค‘์‹ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก
  • ์ผ๋ฐ˜์ ์œผ๋กœ 300์ฐจ์› ์ •๋„ ์‚ฌ์šฉ

GloVe

Global Vectors์˜ ์•ฝ์ž๋กœ, ๋‹จ์–ด ๋™์‹œ ์ถœํ˜„(co-occurrence) ํ†ต๊ณ„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฒกํ„ฐ๋ฅผ ํ•™์Šตํ•œ๋‹ค. Word2Vec๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ „์—ญ ํ†ต๊ณ„ ์ •๋ณด๋ฅผ ๋” ์ž˜ ํ™œ์šฉํ•œ๋‹ค.

Stanford NLP ๊ทธ๋ฃน์ด 2014๋…„ ๋ฐœํ‘œํ–ˆ์œผ๋ฉฐ, ๋‹จ์–ด ๊ฐ„ ์œ ์‚ฌ๋„์™€ ์œ ์ถ” ๋ฌธ์ œ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

์ฃผ์š” ํŠน์ง•:

  • ์ „์—ญ ๋‹จ์–ด ๋™์‹œ ์ถœํ˜„ ํ–‰๋ ฌ ๊ธฐ๋ฐ˜
  • ๋กœ๊ทธ ์ด์ค‘์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ
  • ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ ๊ณต๊ฐœ (Wikipedia, Common Crawl)

Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ

BERT, GPT, Sentence-BERT ๋“ฑ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ์€ ๋ฌธ๋งฅ์„ ๊ณ ๋ คํ•œ ํ’๋ถ€ํ•œ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•œ๋‹ค.

BERT (Bidirectional Encoder Representations from Transformers)

BERT๋Š” ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜์—ฌ ๊ฐ™์€ ๋‹จ์–ด๋„ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์€ํ–‰์— ๊ฐ€๋‹คโ€์™€ โ€œ๊ฐ•์˜ ์€ํ–‰โ€์—์„œ โ€œ์€ํ–‰โ€์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ง„๋‹ค.

์ฃผ์š” ํŠน์ง•:

  • ์‚ฌ์ „ ํ•™์Šต + ๋ฏธ์„ธ ์กฐ์ •(fine-tuning) ๋ฐฉ์‹
  • ๋งˆ์Šคํ‚น๋œ ์–ธ์–ด ๋ชจ๋ธ๋ง(MLM)
  • ์ผ๋ฐ˜์ ์œผ๋กœ 768์ฐจ์› (BERT-base) ๋˜๋Š” 1024์ฐจ์› (BERT-large)

Sentence-BERT

๋ฌธ์žฅ ์ „์ฒด์˜ ์˜๋ฏธ๋ฅผ ๋‹จ์ผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•œ๋‹ค. BERT๋ฅผ ๊ฐœ์„ ํ•˜์—ฌ ๋ฌธ์žฅ ๊ฐ„ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ™œ์šฉ:

  • ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰
  • ๋ฌธ์žฅ ์œ ์‚ฌ๋„ ์ธก์ •
  • ํ…์ŠคํŠธ ํด๋Ÿฌ์Šคํ„ฐ๋ง

CLIP (Contrastive Language-Image Pre-training)

ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ™์€ ๋ฒกํ„ฐ ๊ณต๊ฐ„์— ๋งคํ•‘ํ•˜์—ฌ ํฌ๋กœ์Šค๋ชจ๋‹ฌ ๊ฒ€์ƒ‰์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. OpenAI๊ฐ€ 2021๋…„ ๋ฐœํ‘œํ–ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•:

  • ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€์˜ ๊ณตํ†ต ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„
  • ์ œ๋กœ์ƒท ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๊ฐ€๋Šฅ
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฒ€์ƒ‰ ์ง€์›

Dense Passage Retriever (DPR)

์งˆ๋ฌธ-์‘๋‹ต ์‹œ์Šคํ…œ์„ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋ชจ๋ธ๋กœ, ์งˆ์˜์™€ ๋ฌธ์„œ๋ฅผ ๊ฐ™์€ ๋ฐ€์ง‘ ๋ฒกํ„ฐ ๊ณต๊ฐ„์— ์ธ์ฝ”๋”ฉํ•œ๋‹ค. Facebook AI Research(FAIR)๊ฐ€ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•:

  • ์งˆ์˜ ์ธ์ฝ”๋”์™€ ๋ฌธ์„œ ์ธ์ฝ”๋” ๋ถ„๋ฆฌ
  • ๋Œ€๊ทœ๋ชจ ๋ฌธ์„œ ๊ฒ€์ƒ‰์— ํšจ๊ณผ์ 
  • HNSW ๊ฐ™์€ ๊ทผ์‚ฌ ์ตœ๊ทผ์ ‘ ์ด์›ƒ ๊ฒ€์ƒ‰๊ณผ ๊ฒฐํ•ฉ

์žฅ์ 

  • ์˜๋ฏธ์  ์ดํ•ด: ๋™์˜์–ด, ์œ ์‚ฌ ๊ฐœ๋…์„ ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ๊ฐ€๊นŒ์šด ์œ„์น˜์— ๋ฐฐ์น˜ํ•œ๋‹ค
  • ๋ฌธ๋งฅ ๊ณ ๋ ค: Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๋‹จ์–ด์˜ ๋ฌธ๋งฅ์  ์˜๋ฏธ๋ฅผ ๋ฐ˜์˜ํ•œ๋‹ค
  • ํšจ์œจ์  ํ‘œํ˜„: ๋‚ฎ์€ ์ฐจ์›์œผ๋กœ ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ์••์ถ•ํ•œ๋‹ค
  • ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ: ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์—†๋˜ ์ƒˆ๋กœ์šด ํ‘œํ˜„๋„ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•˜๋‹ค
  • ์ „์ด ํ•™์Šต: ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค
  • ์ˆ˜์น˜ ์—ฐ์‚ฐ: ๋ฒกํ„ฐ ์‚ฐ์ˆ  ์—ฐ์‚ฐ์œผ๋กœ ์˜๋ฏธ์  ๊ด€๊ณ„๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค

๋‹จ์ 

  • ํ•ด์„ ์–ด๋ ค์›€: ๊ฐ ์ฐจ์›์ด ๋ฌด์—‡์„ ์˜๋ฏธํ•˜๋Š”์ง€ ๋ช…ํ™•ํ•˜์ง€ ์•Š๋‹ค
  • ํ•™์Šต ๋น„์šฉ: ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์ปดํ“จํŒ… ์ž์›์ด ํ•„์š”ํ•˜๋‹ค
  • ๋ธ”๋ž™๋ฐ•์Šค: ์™œ ํŠน์ • ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋Š”์ง€ ์„ค๋ช…ํ•˜๊ธฐ ์–ด๋ ต๋‹ค
  • ์ •ํ™•ํ•œ ๋งค์นญ ์•ฝ์ : ํ‚ค์›Œ๋“œ์˜ ์ •ํ™•ํ•œ ์ผ์น˜๊ฐ€ ์ค‘์š”ํ•œ ๊ฒฝ์šฐ ํฌ์†Œ ๋ฒกํ„ฐ๋ณด๋‹ค ์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค
  • ํŽธํ–ฅ ์œ„ํ—˜: ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํŽธํ–ฅ์ด ์ž„๋ฒ ๋”ฉ์— ๋ฐ˜์˜๋  ์ˆ˜ ์žˆ๋‹ค

์‚ฌ์šฉ ์‚ฌ๋ก€

์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰

์งˆ์˜์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜์—ฌ ๊ด€๋ จ ๋ฌธ์„œ๋ฅผ ์ฐพ๋Š”๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ โ€œํŒŒ์ด์ฌ์œผ๋กœ ์›น ํฌ๋กค๋ง ํ•˜๋Š” ๋ฐฉ๋ฒ•โ€์„ ๊ฒ€์ƒ‰ํ•˜๋ฉด, โ€œPython web scraping tutorialโ€ ๊ฐ™์€ ๋ฌธ์„œ๋„ ๋†’์€ ์ˆœ์œ„๋กœ ๋ฐ˜ํ™˜ํ•œ๋‹ค.

์ ์šฉ ๋ถ„์•ผ:

  • ๋ฌธ์„œ ๊ฒ€์ƒ‰ ์—”์ง„
  • ์ฝ”๋“œ ๊ฒ€์ƒ‰
  • ๋ฒ•๋ฅ /์˜๋ฃŒ ๋ฌธ์„œ ๊ฒ€์ƒ‰

์ถ”์ฒœ ์‹œ์Šคํ…œ

์•„์ดํ…œ๊ณผ ์‚ฌ์šฉ์ž๋ฅผ ๋ฐ€์ง‘ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์œ ์‚ฌ๋„ ๊ธฐ๋ฐ˜ ์ถ”์ฒœ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

์˜ˆ์‹œ:

  • YouTube: ๋™์˜์ƒ๊ณผ ์‚ฌ์šฉ์ž ์ž„๋ฒ ๋”ฉ
  • Spotify: ์Œ์•…๊ณผ ์‚ฌ์šฉ์ž ์ทจํ–ฅ ์ž„๋ฒ ๋”ฉ
  • Netflix: ์˜ํ™”/๋“œ๋ผ๋งˆ์™€ ์‹œ์ฒญ ํŒจํ„ด ์ž„๋ฒ ๋”ฉ

๋ฌธ์„œ ๋ถ„๋ฅ˜

ํ…์ŠคํŠธ์˜ ์˜๋ฏธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋ถ„๋ฅ˜ํ•œ๋‹ค. ๊ฐ์„ฑ ๋ถ„์„, ์ฃผ์ œ ๋ถ„๋ฅ˜, ์ŠคํŒธ ํ•„ํ„ฐ๋ง ๋“ฑ์— ํ™œ์šฉ๋œ๋‹ค.

์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋งค์นญ

CLIP ๊ฐ™์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ์„ค๋ช…์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ฑฐ๋‚˜, ์ด๋ฏธ์ง€๋กœ ๊ด€๋ จ ํ…์ŠคํŠธ๋ฅผ ์ฐพ๋Š”๋‹ค.

ํ™œ์šฉ:

  • ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰ ์—”์ง„
  • ์ž๋™ ์ด๋ฏธ์ง€ ์บก์…”๋‹
  • ์‹œ๊ฐ์  ์งˆ๋ฌธ ์‘๋‹ต

์งˆ๋ฌธ-์‘๋‹ต ์‹œ์Šคํ…œ

์งˆ์˜์™€ ๊ด€๋ จ ๋ฌธ์„œ๋ฅผ ๋ฐ€์ง‘ ๋ฒกํ„ฐ๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ๋งค์นญํ•œ๋‹ค. DPR, ColBERT ๊ฐ™์€ ๋ชจ๋ธ์ด ๋Œ€ํ‘œ์ ์ด๋‹ค.

์˜ˆ์‹œ:

  • ๊ณ ๊ฐ ์„œ๋น„์Šค ์ฑ—๋ด‡
  • ์ง€์‹ ๋ฒ ์ด์Šค ๊ฒ€์ƒ‰
  • ๋ฌธ์„œ ๊ธฐ๋ฐ˜ QA

๋‹ค๊ตญ์–ด NLP

๋‹ค๊ตญ์–ด BERT(mBERT), XLM-RoBERTa ๊ฐ™์€ ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ์–ธ์–ด๋ฅผ ๊ฐ™์€ ๋ฒกํ„ฐ ๊ณต๊ฐ„์— ๋งคํ•‘ํ•˜์—ฌ ์–ธ์–ด ๊ฐ„ ์ „์ด ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

ํฌ์†Œ ๋ฒกํ„ฐ์™€์˜ ๋น„๊ต

๋ฐ€์ง‘ ๋ฒกํ„ฐ๋Š” ์˜๋ฏธ์  ์ดํ•ด์™€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์—์„œ ๊ฐ•์ ์„ ๊ฐ€์ง€์ง€๋งŒ, ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋‚ฎ๊ณ  ํ•™์Šต ๋น„์šฉ์ด ํฌ๋‹ค. ํ‚ค์›Œ๋“œ์˜ ์ •ํ™•ํ•œ ๋งค์นญ์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ ํฌ์†Œ ๋ฒกํ„ฐ๊ฐ€ ๋” ์ ํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ตœ๊ทผ์—๋Š” ๋‘ ๋ฐฉ์‹์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค.

์ฐธ๊ณ  ์ž๋ฃŒ