OpenSearch Neural Sparse Search

개요

OpenSearch Neural Sparse Search는 OpenSearch 2.11부터 도입된 learned sparse retrieval 기반의 검색 기능이다¹. 희소 벡터(sparse vector)를 사용하여 의미적 검색을 수행하며, inverted index를 활용해 BM25와 유사한 수준의 효율성을 제공하면서도 더 높은 검색 정확도를 달성한다.

Neural Sparse Search는 OpenSearch의 Neural Search 플러그인의 일부로, 밀집 벡터 검색(HNSW)의 높은 메모리 사용량과 계산 비용 문제를 해결하면서도 전통적인 어휘 기반 검색보다 우수한 성능을 제공한다.

핵심 특징

효율적인 검색

Inverted index 기반: BM25와 동일한 인덱스 구조 사용
낮은 메모리 사용: 밀집 벡터 인덱스의 7.2~10.4% 크기
검색 시 RAM 비용 증가 없음: 네이티브 Lucene 인덱스 사용

높은 검색 정확도

NDCG@10 개선: 전통적 방법 대비 12.7%(doc-only) ~ 20%(bi-encoder) 향상
의미적 매칭: Term expansion으로 동의어, 관련어 검색
해석 가능성: 어떤 단어가 검색에 기여했는지 확인 가능

작동 방식

1. 희소 벡터 생성

Neural Sparse Search는 텍스트를 희소 벡터(token: weight 쌍의 리스트)로 변환한다:

입력 텍스트: "OpenSearch vector search"

↓ Sparse encoding model

희소 벡터:
{
  "opensearch": 0.85,
  "vector": 0.72,
  "search": 0.68,
  "semantic": 0.32,  // term expansion
  "retrieval": 0.28   // term expansion
}

2. 인덱싱

희소 벡터를 rank_features 필드 타입으로 저장:

{
  "mappings": {
    "properties": {
      "content": { "type": "text" },
      "content_embedding": { "type": "rank_features" }
    }
  }
}

Ingest pipeline을 통해 자동으로 임베딩 생성:

{
  "sparse_encoding_ingest_processor": {
    "field_map": {
      "content": "content_embedding"
    },
    "model_id": "<model_id>"
  }
}

3. 검색

neural_sparse 쿼리로 검색:

{
  "query": {
    "neural_sparse": {
      "content_embedding": {
        "query_text": "vector database search",
        "model_id": "<model_id>",
        "max_token_score": 3.5
      }
    }
  }
}

운영 모드

OpenSearch Neural Sparse Search는 두 가지 운영 모드를 제공한다².

Doc-only 모드 (기본)

특징:

문서만 신경망 인코더로 처리
쿼리는 토크나이저로 분석 (DL analyzer 사용)
온라인 추론 단계 제거로 지연 시간 대폭 감소

장점:

빠른 검색 속도
낮은 계산 비용
대부분의 사용 사례에 적합

단점:

Bi-encoder 대비 검색 정확도 약간 낮음

Bi-encoder 모드

특징:

문서와 쿼리 모두 신경망 인코더로 처리
양방향 의미적 매칭

장점:

높은 검색 정확도 (NDCG@10 20% 향상)
더 풍부한 의미적 표현

단점:

쿼리마다 모델 추론 필요로 지연 시간 증가
더 높은 계산 비용

사전 학습 모델

OpenSearch는 Hugging Face를 통해 공식 sparse encoding 모델을 제공한다.

v1 모델

opensearch-neural-sparse-encoding-v1 ³

아키텍처: BERT base (12-layer transformer)
파라미터: 133M
출력: 30,522차원 희소 벡터 (BERT vocabulary 크기)
학습 데이터: MS MARCO
성능: NDCG@10 평균 0.524

v2 모델

v2 시리즈는 distillation 기법으로 성능과 효율성을 모두 개선했다⁴.

opensearch-neural-sparse-encoding-v2-distill

아키텍처: DistilBERT base
파라미터: 67M (v1 대비 50% 감소)
출력: 30,522차원 희소 벡터
학습 데이터: MS MARCO, WikiAnswers, SQuAD, Yahoo Answers 등 14개 데이터셋
성능: NDCG@10 평균 0.528 (v1 대비 개선)
효율성:
- GPU 처리량 1.39배 증가
- CPU 처리량 1.74배 증가

opensearch-neural-sparse-encoding-doc-v2-mini

아키텍처: MiniLM base
파라미터: 33M (v1 대비 75% 감소)
용도: Doc-only 모드 전용
효율성:
- GPU 처리량 1.74배 증가
- CPU 처리량 4.18배 증가

multilingual-v1 모델 (다국어 지원)

opensearch-neural-sparse-encoding-multilingual-v1 ⁵

OpenSearch v3에서 출시된 최초의 다국어 neural sparse retrieval 모델이다.

아키텍처: Multilingual transformer
파라미터: 160M
출력: 105,879차원 희소 벡터 (다국어 vocabulary)
성능:
- NDCG@10 평균 0.629 (v2 대비 향상)
- 평균 FLOPS: 1.3
- 평균 임베딩 크기: 138
지원 언어 (15개):
- 아랍어, 벵골어, 중국어, 영어, 핀란드어, 프랑스어
- 힌디어, 인도네시아어, 일본어, 한국어, 페르시아어
- 러시아어, 스페인어, 스와힐리어, 텔루구어
학습 기법: GTE와 LLM teacher 모델을 활용한 distillation
성능: 모든 언어에서 BM25 대비 큰 성능 향상

중요 제약사항:

토큰 제한: 다국어 문서는 첫 512 토큰만 처리 (영어 전용 모델은 8,192 토큰)
긴 한국어 문서의 경우 문서 분할(chunking) 필요

모델 선택 가이드

모델	파라미터	언어	용도	성능	효율성
v1	133M	영어	범용	기본	기본
v2-distill	67M	영어	범용	향상	1.4~1.7x
v2-mini	33M	영어	Doc-only	향상	1.7~4.2x
multilingual-v1	160M	15개 언어	다국어	최고	중간

권장사항:

영어 전용:
- 대부분의 경우: v2-distill (성능과 효율성 균형)
- CPU 환경: v2-mini (CPU에서 4배 이상 빠름)
- 높은 정확도 필요: v2-distill + bi-encoder 모드
한국어 또는 다국어: multilingual-v1 (한국어 공식 지원)

Two-Phase 알고리즘 (OpenSearch 2.15+)

OpenSearch 2.15부터 two-phase 검색 알고리즘으로 검색 속도를 크게 향상시킬 수 있다⁶.

작동 원리

쿼리 토큰을 두 그룹으로 분리:

High-scoring tokens: 검색 관련도가 높은 토큰
- 모든 문서 대상 scoring 및 필터링
- Top-k 문서 선택
Low-scoring tokens: 검색 관련도가 낮은 토큰
- Top-k 문서만 대상으로 rescoring

성능 향상

Doc-only 모드:

속도 향상: 1.22x ~ 1.78x

Bi-encoder 모드:

속도 향상: 4.15x ~ 6.87x (더 큰 성능 개선)

설정 방법

Search pipeline 생성:

{
  "request_processors": [
    {
      "neural_sparse_two_phase": {
        "tag": "neural-sparse-two-phase",
        "description": "Two-phase neural sparse processor",
        "enabled": true
      }
    }
  ]
}

쿼리 시 pipeline 사용:

{
  "query": {
    "neural_sparse": {
      "passage_embedding": {
        "query_text": "what is a Manhattan Project",
        "model_id": "<model_id>"
      }
    }
  },
  "search_pipeline": "two_phase_search_pipeline"
}

성능 비교

검색 정확도

방법	NDCG@10	개선폭
BM25 (베이스라인)	1.00x	-
Neural Sparse (doc-only)	1.127x	+12.7%
Neural Sparse (bi-encoder)	1.200x	+20.0%

리소스 사용량

지표	Dense Vector	Neural Sparse
인덱스 크기	100%	7.2~10.4%
검색 시 RAM 증가	+7.9%	0%
검색 속도	느림 (k-NN)	빠름 (inverted index)

Lucene 엔진 업그레이드 효과

OpenSearch 2.12의 Lucene 엔진 업그레이드로 neural sparse search 성능이 크게 개선되었다:

처리량(throughput) 향상
지연 시간(latency) 감소

사용 방법

1. 모델 등록 및 배포

POST /_plugins/_ml/models/_register
{
  "name": "opensearch-neural-sparse-encoding-v2-distill",
  "version": "1.0.0",
  "model_format": "TORCH_SCRIPT",
  "function_name": "SPARSE_ENCODING"
}

모델 배포:

POST /_plugins/_ml/models/<model_id>/_deploy

2. Ingest Pipeline 생성

PUT /_ingest/pipeline/neural-sparse-pipeline
{
  "description": "Neural sparse encoding pipeline",
  "processors": [
    {
      "sparse_encoding": {
        "model_id": "<model_id>",
        "field_map": {
          "passage_text": "passage_embedding"
        }
      }
    }
  ]
}

3. 인덱스 생성 및 매핑

PUT /my_index
{
  "settings": {
    "index.default_pipeline": "neural-sparse-pipeline"
  },
  "mappings": {
    "properties": {
      "passage_text": { "type": "text" },
      "passage_embedding": { "type": "rank_features" }
    }
  }
}

4. 문서 인덱싱

POST /my_index/_doc
{
  "passage_text": "OpenSearch provides neural sparse search capabilities for efficient semantic retrieval."
}

5. 검색

GET /my_index/_search
{
  "query": {
    "neural_sparse": {
      "passage_embedding": {
        "query_text": "semantic search in OpenSearch",
        "model_id": "<model_id>",
        "max_token_score": 3.5
      }
    }
  }
}

하이브리드 검색

Neural Sparse Search는 다른 검색 방법과 결합하여 더 나은 결과를 얻을 수 있다.

BM25 + Neural Sparse

{
  "query": {
    "hybrid": {
      "queries": [
        {
          "match": {
            "passage_text": "vector search"
          }
        },
        {
          "neural_sparse": {
            "passage_embedding": {
              "query_text": "vector search",
              "model_id": "<model_id>"
            }
          }
        }
      ]
    }
  }
}

Dense + Sparse Vectors

밀집 벡터와 희소 벡터를 결합한 RAG 시스템⁷:

1차 검색: Neural Sparse로 후보 필터링
2차 검색: Dense vector로 정밀 매칭
순위 결합: RRF로 여러 검색 결과 융합
Re-ranking: Cross-encoder로 최종 순위 결정

활용 사례

엔터프라이즈 검색

내부 문서 검색: 회사 문서, 위키, 지식 베이스
코드 검색: 소스 코드, API 문서
이메일 검색: 의미 기반 이메일 검색

E-commerce

상품 검색: 동의어, 유사 상품명 처리
추천: 관련 상품 추천
Q&A: 상품 문의 자동 매칭

RAG (Retrieval-Augmented Generation)

문서 검색: LLM에 제공할 관련 문서 검색
사실 검증: 정확한 출처 문서 제공
컨텍스트 확장: 관련 정보 자동 추가

고객 지원

FAQ 매칭: 유사 질문 자동 검색
티켓 라우팅: 관련 부서 자동 분류
해결책 제안: 과거 이슈 기반 해결책 추천

모범 사례

모드 선택

Doc-only 모드 권장 상황:

대부분의 프로덕션 환경 (기본 권장)
낮은 지연 시간이 중요한 경우
CPU 리소스가 제한적인 경우
DL (Deep Learning) analyzer와 함께 사용

Bi-encoder 모드 권장 상황:

검색 정확도가 최우선인 경우
쿼리 빈도가 낮은 경우
충분한 GPU/CPU 리소스가 있는 경우

성능 최적화

Two-phase 알고리즘 사용: OpenSearch 2.15+ 환경
적절한 모델 선택: CPU 환경에서는 v2-mini 고려
max_token_score 조정: 쿼리 특성에 따라 임계값 최적화
하이브리드 검색: BM25와 결합하여 강건성 향상

제한 사항

언어 지원:
- v1, v2 모델: 영어 전용
- multilingual-v1: 15개 언어 지원 (한국어 포함)
- 다국어 모델의 토큰 제한: 512 토큰 (영어 전용은 8,192 토큰)
모델 크기: 큰 모델일수록 메모리 사용량 증가
학습 데이터: 도메인 특화 성능 향상을 위해 fine-tuning 필요

버전 히스토리

OpenSearch 2.11 (2023)

Neural Sparse Search 최초 도입
Doc-only 및 bi-encoder 모드 지원
v1 모델 제공

OpenSearch 2.13 (2024)

Neural Sparse Search Tool 도입
Agent 기반 워크플로우 지원

OpenSearch 2.15 (2024)

Two-phase 알고리즘 도입
Boolean compound query 지원
4~7배 속도 향상 (bi-encoder 모드)

OpenSearch 3.0 (2024-2025)

multilingual-v1 모델 출시
15개 언어 공식 지원 (한국어 포함)
GTE 및 LLM teacher 모델 기반 향상된 학습 기법
v2 대비 성능 향상 (NDCG@10: 0.629)

참고 자료

공식 문서

블로그 및 튜토리얼

AWS 자료

Integrate sparse and dense vectors in RAG - AWS Blog

모델 저장소

Neural sparse search - OpenSearch Documentation ↩
OpenSearch 공식 문서에서는 doc-only 모드를 기본 권장 설정으로 제시한다 ↩
opensearch-neural-sparse-encoding-v1 - Hugging Face ↩
v2 모델은 heterogeneous teacher 모델에서 distillation하는 방식이 InfoNCE loss로 사전 학습하는 것보다 효과적임을 보여줌 ↩
opensearch-neural-sparse-encoding-multilingual-v1 - Hugging Face ↩
Neural sparse two-phase processor는 검색 관련도에 미미한 영향만 주면서 최대 9.8배 속도 향상 달성 ↩
Integrate sparse and dense vectors in RAG - AWS Blog ↩

📚개자봉의 공책

분류

최근 글

Jakob's Law (야콥의 법칙)

Jakob Nielsen의 10가지 유저빌리티 휴리스틱 (Jakob Nielsen's 10 Usability Heuristics)

MacOS에서 Docker를 이용해서 OpenSearch 3.2, Nori 플러그인, Dashboards 설치하기