๊ฐ์
TF-IDF(Term Frequency-Inverse Document Frequency)๋ ๋ฌธ์ ์งํฉ(์ฝํผ์ค)์์ ํน์ ๋จ์ด๊ฐ ํ ๋ฌธ์ ๋ด์์ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ํ๋ด๋ ํต๊ณ์ ์์น๋ค. ์ ๋ณด ๊ฒ์๊ณผ ํ ์คํธ ๋ง์ด๋์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, ๋จ์ด์ ์ค์๋๋ฅผ ์ ๋ํํ์ฌ ๋ฌธ์ ํํ, ๊ฒ์ ๋ญํน, ๋ฌธ์ ๋ถ๋ฅ ๋ฑ์ ํ์ฉ๋๋ค.
TF-IDF์ ํต์ฌ ์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ๋ค:
- ํน์ ๋ฌธ์์์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ ๊ทธ ๋ฌธ์๋ฅผ ์ ์ค๋ช ํ๋ค (TF)
- ํ์ง๋ง ๋ชจ๋ ๋ฌธ์์์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ ๋ณ๋ณ๋ ฅ์ด ๋จ์ด์ง๋ค (IDF)
๊ตฌ์ฑ ์์
TF (Term Frequency)
๋จ์ด ๋น๋(Term Frequency)๋ ํน์ ๋ฌธ์์์ ํด๋น ๋จ์ด๊ฐ ๋ฑ์ฅํ๋ ํ์๋ฅผ ๋ํ๋ธ๋ค.
๊ฐ์ฅ ๋จ์ํ ํํ๋ ์์ ๋น๋(raw count)๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ์ด๋ค:
์ฌ๊ธฐ์ ๋ ๋ฌธ์ ์์ ๋จ์ด ๊ฐ ๋ฑ์ฅํ ํ์๋ค.
๋ฌธ์ ๊ธธ์ด์ ์ํฅ์ ์ค์ด๊ธฐ ์ํด ์ ๊ทํ๋ ๋น๋๋ฅผ ์ฌ์ฉํ๊ธฐ๋ ํ๋ค:
IDF (Inverse Document Frequency)
์ญ๋ฌธํ๋น๋(Inverse Document Frequency)๋ ๋จ์ด๊ฐ ์ ์ฒด ๋ฌธ์ ์งํฉ์์ ์ผ๋ง๋ ํฌ๊ทํ์ง๋ฅผ ๋ํ๋ธ๋ค. ๋ชจ๋ ๋ฌธ์์ ์์ฃผ ๋ฑ์ฅํ๋ ์ผ๋ฐ์ ์ธ ๋จ์ด๋ ๋ฎ์ ๊ฐ์ค์น๋ฅผ, ํน์ ๋ฌธ์์๋ง ๋ฑ์ฅํ๋ ๋จ์ด๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ฐ๋๋ค.
- : ์ ์ฒด ๋ฌธ์ ์
- : ๋จ์ด ๋ฅผ ํฌํจํ๋ ๋ฌธ์์ ์
๋ถ๋ชจ๊ฐ 0์ด ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ค๋ฌด๋ฉ์ ์ ์ฉํ ๋ณํ๋ ์๋ค:
TF-IDF ์์
TF-IDF๋ TF์ IDF์ ๊ณฑ์ผ๋ก ๊ณ์ฐ๋๋ค:
์ด ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ ํน์ฑ์ ๊ฐ์ง๋ค:
- ๋ฌธ์ ๋ด์์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ผ์๋ก ๊ฐ์ด ํฌ๋ค
- ์ ์ฒด ๋ฌธ์ ์งํฉ์์ ํํ ๋จ์ด์ผ์๋ก ๊ฐ์ด ์์์ง๋ค
- ํน์ ๋ฌธ์๋ฅผ ์ ์ค๋ช ํ๋ ํต์ฌ ๋จ์ด๊ฐ ๋์ ๊ฐ์ ๋ฐ๋๋ค
๊ณ์ฐ ์์
๋ค์ 3๊ฐ์ ๋ฌธ์๋ก ๊ตฌ์ฑ๋ ๋ฌธ์ ์งํฉ์์ โ๊ฒ์โ ๋จ์ด์ TF-IDF๋ฅผ ๊ณ์ฐํด๋ณด์:
- ๋ฌธ์ 1: โ๋จธ์ ๋ฌ๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋คโ
- ๋ฌธ์ 2: โ์ ๋ณด ๊ฒ์ ์์คํ ์ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋คโ
- ๋ฌธ์ 3: โ๋ฐ์ดํฐ ๊ณผํ์ ํต๊ณ์ ํ๋ก๊ทธ๋๋ฐ์ ํ์ฉํ๋คโ
1๋จ๊ณ: TF ๊ณ์ฐ
๋ฌธ์ 2์์ โ๊ฒ์โ ๋จ์ด์ TF๋ฅผ ๊ณ์ฐํ๋ค.
- ๋ฌธ์ 2์ ์ด ๋จ์ด ์: 6๊ฐ
- โ๊ฒ์โ ๋ฑ์ฅ ํ์: 2ํ
์์ ๋น๋ ๋ฐฉ์:
์ ๊ทํ๋ ๋น๋ ๋ฐฉ์:
2๋จ๊ณ: IDF ๊ณ์ฐ
์ ์ฒด ๋ฌธ์ ์งํฉ์์ โ๊ฒ์โ ๋จ์ด์ IDF๋ฅผ ๊ณ์ฐํ๋ค.
- ์ ์ฒด ๋ฌธ์ ์
- โ๊ฒ์โ์ ํฌํจํ๋ ๋ฌธ์ ์: 1๊ฐ (๋ฌธ์ 2๋ง ํฌํจ)
3๋จ๊ณ: TF-IDF ๊ณ์ฐ
TF์ IDF๋ฅผ ๊ณฑํ์ฌ ์ต์ข TF-IDF ๊ฐ์ ๊ตฌํ๋ค.
์์ ๋น๋ ๊ธฐ๋ฐ:
์ ๊ทํ๋ ๋น๋ ๊ธฐ๋ฐ:
๋น๊ต: ์ผ๋ฐ์ ์ธ ๋จ์ด
โ๋ฐ์ดํฐโ ๋จ์ด๋ ๋ฌธ์ 1๊ณผ 3์ ๋ฑ์ฅํ๋ค (์ด 2๊ฐ ๋ฌธ์).
๋ฌธ์ 1์์ โ๋ฐ์ดํฐโ์ TF-IDF:
โ๊ฒ์โ (2.198)์ด โ๋ฐ์ดํฐโ (0.176)๋ณด๋ค ํจ์ฌ ๋์ TF-IDF ๊ฐ์ ๊ฐ์ง๋ค. ์ด๋ โ๊ฒ์โ์ด ํน์ ๋ฌธ์(๋ฌธ์ 2)๋ฅผ ๋ ์ ์ค๋ช ํ๋ ํน์ง์ ์ธ ๋จ์ด์์ ์๋ฏธํ๋ค.
์ฌ์ฉ ์ฌ๋ก
์ ๋ณด ๊ฒ์
๊ฒ์ ์์ง์์ ์ง์์ด์ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ ๋ TF-IDF๋ฅผ ์ฌ์ฉํ๋ค. ์ง์์ด์ ํฌํจ๋ ๊ฐ ๋จ์ด์ TF-IDF ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฌธ์์ ๊ด๋ จ๋๋ฅผ ํ๊ฐํ๋ค.
๋ฌธ์ ๋ถ๋ฅ
๊ธฐ๊ณ ํ์ต ๊ธฐ๋ฐ ํ ์คํธ ๋ถ๋ฅ์์ ๋ฌธ์๋ฅผ ๋ฒกํฐ๋ก ํํํ ๋ TF-IDF๋ฅผ ํน์ง(feature)์ผ๋ก ์ฌ์ฉํ๋ค. ๊ฐ ๋จ์ด์ TF-IDF ๊ฐ์ด ๋ฒกํฐ์ ์ฐจ์์ ๊ตฌ์ฑํ๋ค.
ํค์๋ ์ถ์ถ
๋ฌธ์์์ ์ค์ํ ํค์๋๋ฅผ ์๋์ผ๋ก ์ถ์ถํ ๋ TF-IDF๊ฐ ๋์ ๋จ์ด๋ค์ ์ ํํ๋ค.
๋ฌธ์ ์ ์ฌ๋ ๊ณ์ฐ
๋ ๋ฌธ์์ TF-IDF ๋ฒกํฐ ๊ฐ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ์ฑ์ ์ธก์ ํ๋ค.
์ฅ๋จ์
์ฅ์
- ๋จ์ํ๊ณ ํจ์จ์ : ๊ณ์ฐ์ด ๊ฐ๋จํ๋ฉฐ ๊ตฌํ์ด ์ฝ๋ค
- ํด์ ๊ฐ๋ฅ์ฑ: ๊ฐ ๋จ์ด์ ์ค์๋๋ฅผ ๋ช ํํ๊ฒ ์์นํํ๋ค
- ์ธ์ด ๋ ๋ฆฝ์ : ๋ชจ๋ ์ธ์ด์ ์ ์ฉ ๊ฐ๋ฅํ๋ค
- ์ผ๋ฐ ๋จ์ด ์ต์ : โ์โ, โ๋โ ๊ฐ์ ๋ถ์ฉ์ด์ ์ํฅ์ ์๋์ผ๋ก ์ค์ธ๋ค
๋จ์
- ๋จ์ด ์์ ๋ฌด์: Bag-of-Words ๋ชจ๋ธ๋ก ๋ฌธ๋งฅ๊ณผ ์ด์ ์ ๋ณด๋ฅผ ์๋๋ค
- ๋์์ด ๋ฏธ์ฒ๋ฆฌ: โ์๋์ฐจโ์ โ์ฐจโ๋ฅผ ๋ณ๊ฐ๋ก ์ทจ๊ธํ๋ค
- ์ ํ TF: ๋จ์ด ๋น๋๊ฐ ์ฆ๊ฐํ ์๋ก ์ ํ์ ์ผ๋ก ๊ฐ์ค์น๊ฐ ์ปค์ ธ, ๊ณผ๋ํ๊ฒ ๋ฐ๋ณต๋ ๋จ์ด๊ฐ ์ง๋์น๊ฒ ๋์ ์ ์๋ฅผ ๋ฐ์ ์ ์๋ค1
- ํฌ์์ฑ: ์ดํ ํฌ๊ธฐ๋งํผ์ ์ฐจ์์ ๊ฐ์ง ํฌ์ ๋ฒกํฐ๊ฐ ์์ฑ๋๋ค
TF-IDF์ ๋ฐ์
TF-IDF๋ ์ ๋ณด ๊ฒ์์ ์ด๊ธฐ ํ์ค์ผ๋ก ์๋ฆฌ ์ก์์ผ๋, ํ๋ ๊ฒ์ ์์คํ ์์๋ ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ด ์ฌ์ฉ๋๋ค:
- BM25: TF-IDF๋ฅผ ํ๋ฅ ์ ๋ชจ๋ธ๋ก ๋ฐ์ ์์ผ, ์ฉ์ด ๋น๋ ํฌํ์ ๋ฌธ์ ๊ธธ์ด ์ ๊ทํ๋ฅผ ๋์ ํ๋ค
- ๋ฐ์ง ๋ฒกํฐ: Word2Vec, GloVe ๋ฑ ๋ฐ์ง ๋ฒกํฐ ํํ ๋ฐฉ์์ด ์๋ฏธ์ ์ ์ฌ์ฑ์ ๋ ์ ํฌ์ฐฉํ๋ค
- Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ: BERT, GPT ๋ฑ ๋ฌธ๋งฅ์ ์ดํดํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ๋ฑ์ฅํ๋ค
๊ทธ๋ผ์๋ TF-IDF๋ ์ฌ์ ํ ๋น ๋ฅธ ํ๋กํ ํ์ดํ, ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ, ํน์ ๋๋ฉ์ธ์์ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉ๋๋ค.
์ฐธ๊ณ ์๋ฃ
- Salton, G., & McGill, M. J. (1983). Introduction to Modern Information Retrieval
- Scikit-learn TF-IDF Vectorizer ๋ฌธ์
- Manning, C. D., Raghavan, P., & Schรผtze, H. (2008). Introduction to Information Retrieval, Chapter 6