Learned Sparse Retrieval

개요

Learned Sparse Retrieval (LSR)은 신경망을 사용하여 쿼리와 문서를 희소 벡터(sparse vector)로 표현하는 정보 검색 기법이다¹. 전통적인 어휘 기반 방법(TF-IDF, BM25)과 밀집 벡터 임베딩의 장점을 결합하여, 역색인(inverted index)의 효율성을 유지하면서도 의미적 매칭 능력을 향상시킨다.

LSR은 전통적인 희소 벡터와 달리 신경망을 통해 학습되며, 두 가지 핵심 기능을 제공한다:

Term weighting: 문서와 쿼리에서 각 단어의 중요도를 학습
Term expansion: 원본 텍스트에 없는 의미적으로 관련된 단어를 추가

배경과 동기

전통적 희소 검색의 한계

전통적인 BM25 같은 희소 검색 방법은 다음과 같은 문제를 가진다:

Vocabulary mismatch: “자동차”와 “차량”을 완전히 다른 단어로 취급
동의어 미처리: 의미적으로 유사한 단어들을 별개로 간주
문맥 무시: 단어의 중요도가 문맥과 무관하게 고정

밀집 벡터 검색의 문제

밀집 벡터 기반 검색(DPR, ANCE 등)은 의미적 유사성을 잘 포착하지만:

높은 메모리 사용량: k-NN 검색에 많은 메모리 필요
느린 검색 속도: 근사 최근접 이웃 탐색이 inverted index보다 비효율적
해석 어려움: 어떤 요소가 검색 결과에 영향을 주었는지 파악 곤란

Learned Sparse Retrieval의 해결책

LSR은 다음을 통해 두 방식의 장점을 결합한다:

신경망을 통해 의미적 유사성 학습
Inverted index를 사용하여 효율적인 검색
희소 표현으로 해석 가능성 유지

통합 프레임워크

Nguyen et al.(2023)은 모든 LSR 방법을 4가지 핵심 구성 요소로 통합하는 프레임워크를 제안했다²:

Document term weighting: 문서 내 각 단어의 중요도 계산
Query term weighting: 쿼리 내 각 단어의 중요도 계산
Document expansion: 문서에 관련 단어 추가
Query expansion: 쿼리에 관련 단어 추가

구성 요소별 기여도

통일된 환경에서 재학습 실험 결과:

Document term weighting: 효과성에 가장 중요한 요소
Query term weighting: 작지만 긍정적인 영향
Document/Query expansion: 서로 상쇄 효과 존재

실용적 발견: 최신 모델에서 query expansion을 제거하면 효과성은 유지하면서 지연 시간을 크게 줄일 수 있다.

주요 모델

DeepCT (2019)

초기 learned sparse retrieval 모델 중 하나로, BERT의 문맥적 표현을 활용한다.

핵심 아이디어:

BERT의 문맥화된 임베딩 위에 선형 회귀 모델 사용
문서 내 각 단어의 중요도를 정수 값으로 예측
단어별로 독립적인 점수 학습

한계:

각 단어의 중요도에 대한 ground truth 정의가 어려움
쿼리-문서 관련성을 직접적으로 학습하지 않음

DeepImpact (2021)

DeepCT의 한계를 개선한 모델.

개선점:

쿼리-문서 관련성을 학습 목표로 직접 사용
BERT 임베딩을 2층 신경망으로 변환하여 스칼라 점수 생성
독립적인 단어 점수 대신 쿼리 단어 영향도의 합을 최적화

성능:

DeepCT보다 효율적 (평균 응답 시간 1.1ms, tail 4.5ms)
효과성은 SPLADEv2나 uniCOIL보다 낮음

uniCOIL (2021)

COIL의 간단한 확장 버전으로, MS MARCO에서 state-of-the-art 달성³.

특징:

COIL의 벡터 출력을 스칼라 중요도 점수로 단순화
Learned Term Impact (LTI) 프레임워크의 일부
MS MARCO dev queries에서 이전 방법보다 큰 폭으로 우수

효율성 대비 효과성:

SPLADEv2보다 효과적이지만 느림
복잡한 아키텍처로 인해 DeepImpact보다 10배 이상 느림

SPLADE (2021)

가장 널리 알려진 learned sparse retrieval 모델⁴.

아키텍처:

BERT 기반 transformer로 입력 토큰화 및 인코딩
MLM (Masked Language Model) 헤드를 통해 어휘 크기(30,522)로 projection
Log-saturation 활성화 함수로 단일 term의 기여도 제한
서브토큰 임베딩 합산으로 최종 희소 벡터 생성

핵심 혁신:

명시적 희소성 정규화: FLOPS regularizer로 inverted index 비용 직접 추정
Log-saturation: 반복 출현 단어의 과도한 영향 방지
End-to-end 단일 단계 학습: 복잡한 파이프라인 없이 학습

장점:

Exact term matching과 효율적인 inverted index 사용
Term expansion으로 vocabulary mismatch 해결
효과성과 효율성의 trade-off 조절 가능

SPLADE v2 (2021)

SPLADE의 개선 버전으로 여러 학습 기법 도입⁵.

주요 개선사항:

Knowledge distillation: 교사 모델의 지식 전이
Hard negative mining: 어려운 부정 예제로 학습 강화
더 나은 PLM 초기화: 사전 학습 모델 선택 최적화
풀링 메커니즘 수정: 문서 표현 개선

성능:

TREC DL 2019에서 NDCG@10 9% 이상 향상
BEIR 벤치마크에서 state-of-the-art 달성
밀집 모델과 경쟁 가능한 수준

SPLADE v3 (2024)

최신 버전으로 학습 방법론의 대폭 개선⁶.

훈련 개선:

Hard negative 증가: 100개 네거티브 사용 (top-50 + 랜덤 50)
앙상블 distillation: 단일 모델 대신 여러 cross-encoder 앙상블 사용
하이브리드 손실 함수: KL-Div와 MarginMSE 혼합
Self-distillation: SPLADE++의 네거티브 샘플링

성능:

MS MARCO dev set에서 MRR@10 > 40 달성
BM25 및 SPLADE++보다 통계적으로 유의미하게 우수
Cross-encoder re-ranker와 경쟁 가능

작동 원리

1. 희소 벡터 생성

입력 텍스트: "machine learning algorithms"

↓ BERT tokenization

["machine", "learning", "algorithms"]

↓ BERT encoding + MLM head

어휘 크기(30,522) 벡터: [0, 0, ..., 0.8, 0, ..., 0.6, ..., 0.4, ..., 0.2, 0, ...]
                              ↑machine    ↑learning  ↑algorithm  ↑neural

↓ Sparsification (낮은 값 제거)

{machine: 0.8, learning: 0.6, algorithm: 0.4, neural: 0.2}

특징:

원본에 없는 “neural”이 term expansion으로 추가됨
대부분의 차원이 0 (희소성)
중요한 단어만 non-zero 가중치

2. 인덱싱

희소 벡터를 inverted index에 저장:

Inverted Index:
machine    → [doc1: 0.8, doc5: 0.6, ...]
learning   → [doc1: 0.6, doc3: 0.7, ...]
algorithm  → [doc1: 0.4, doc2: 0.5, ...]
neural     → [doc1: 0.2, doc4: 0.8, ...]

전통적인 BM25와 동일한 구조로 효율적 검색 가능.

3. 검색

쿼리도 동일하게 희소 벡터로 변환 후 dot product로 점수 계산:

Query: "deep learning"
Query vector: {deep: 0.9, learning: 0.7, neural: 0.3}

Document score = ∑(query_weight × doc_weight)
               = (0.7 × 0.6) + (0.3 × 0.2)
               = 0.42 + 0.06
               = 0.48

성능 비교

BEIR 벤치마크 (제로샷 평가)

다양한 도메인에서의 일반화 성능:

모델	평균 NDCG@10	특징
BM25	~0.40	베이스라인
DeepImpact	~0.44	가장 빠름
uniCOIL	~0.47	균형잡힌 성능
SPLADE v2	~0.49	높은 효과성, 느림
SPLADE v3	~0.51	State-of-the-art
Dense (DPR)	~0.45	높은 메모리

MS MARCO Passage Ranking

인-도메인 성능:

모델	MRR@10	효율성
BM25	0.187	매우 빠름
DeepCT	0.243	빠름
DeepImpact	0.326	빠름 (1.1ms)
uniCOIL	0.353	중간
SPLADE v2	0.368	느림
SPLADE v3	0.400+	느림 (10x+)

Recall 비교 (Long Document Retrieval)

깊이	DeepImpact	uniCOIL	SPLADE
@100	0.65	0.72	0.78
@500	0.79	0.84	0.89
@1000	0.84	0.88	0.93

SPLADE가 모든 깊이에서 가장 높은 recall 달성.

장점

1. 효율성

Inverted index 활용: BM25와 유사한 검색 속도
낮은 메모리: 밀집 벡터 대비 7-10% 수준 인덱스 크기
빠른 검색: k-NN보다 효율적

2. 효과성

의미적 매칭: Term expansion으로 동의어, 관련어 검색
문맥 인식: BERT 기반으로 문맥에 따른 가중치 학습
우수한 성능: BEIR, MS MARCO 등에서 밀집 모델과 경쟁

3. 해석 가능성

명시적 단어 가중치: 어떤 단어가 중요한지 확인 가능
디버깅 용이: 검색 결과의 근거 파악 가능
설명 가능한 AI: 사용자에게 검색 이유 제시 가능

4. 유연성

Trade-off 조절: 정규화 강도로 효율성-효과성 균형 조정
기존 인프라 활용: Lucene, Elasticsearch 등 기존 시스템 사용
하이브리드 검색: 밀집 벡터와 결합 가능 (RRF 등)

단점

1. 학습 비용

대규모 데이터셋 필요 (MS MARCO 등)
긴 학습 시간 (특히 distillation 사용 시)
GPU 자원 필요

2. 지연 시간

전통적인 BM25보다 느림 (특히 bi-encoder 모드)
Term expansion으로 인한 인덱스 크기 증가
SPLADE v2/v3는 DeepImpact보다 10배 이상 느림

3. 언어 의존성

대부분 영어 중심으로 개발
다국어 지원 제한적
언어별 재학습 필요

4. 복잡성

하이퍼파라미터 튜닝 필요 (정규화 강도, 학습률 등)
전통적 방법보다 구현 복잡
최적화를 위한 전문 지식 필요

구현 및 활용

학습 패러다임

1. Contrastive Learning

Positive와 negative 샘플 쌍으로 학습
관련 문서는 가깝게, 비관련 문서는 멀게

2. Distillation (더 효과적)

Cross-encoder 같은 강력한 교사 모델의 점수 학습
SPLADE v2 이후 주로 사용
앙상블 distillation으로 더욱 개선 (v3)

정규화

FLOPS Regularizer

Loss = Ranking_Loss + λ × FLOPS_cost

FLOPS_cost ≈ ∑(non-zero weights)

λ 증가 → 더 희소한 표현 → 빠른 검색, 낮은 효과성
λ 감소 → 더 밀집한 표현 → 느린 검색, 높은 효과성

실제 시스템 적용

주요 구현:

Elasticsearch: ELSER (Elastic Learned Sparse Encoder)
OpenSearch: Neural Sparse Search (opensearch-neural-sparse-encoding 모델)
Pinecone: Sparse vector index 지원
Qdrant: Sparse vector 지원

활용 사례:

엔터프라이즈 검색: 문서, 이메일, 코드 검색
E-commerce: 상품 검색 및 추천
질의응답 시스템: RAG (Retrieval-Augmented Generation)
법률/의료: 전문 용어 검색

참고 자료

주요 논문

블로그 및 튜토리얼

코드 저장소

Learned sparse retrieval - Wikipedia ↩
A Unified Framework for Learned Sparse Retrieval - Nguyen et al., 2023 ↩
A Few Brief Notes on DeepImpact, COIL, and a Conceptual Framework for Information Retrieval Techniques - Lin et al., 2021 ↩
SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking - Formal et al., 2021 ↩
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval - Formal et al., 2021 ↩
SPLADE-v3: New baselines for SPLADE - 2024 ↩
Adapting Learned Sparse Retrieval for Long Documents - 2023 ↩

📚개자봉의 공책

분류

최근 글

Jakob's Law (야콥의 법칙)

Jakob Nielsen의 10가지 유저빌리티 휴리스틱 (Jakob Nielsen's 10 Usability Heuristics)

MacOS에서 Docker를 이용해서 OpenSearch 3.2, Nori 플러그인, Dashboards 설치하기