정보처리기사 기출 핵심 [48] 벡터 데이터베이스와 AI 검색 완전 정복

새로운 데이터베이스 패러다임

AI 시대에 맞는 새로운 데이터베이스 유형들이 등장했습니다. 정보처리기사 시험에서는 벡터 DB, 시계열 DB, NewSQL의 특성과 적합한 사용 사례가 핵심 출제 범위입니다.

벡터 데이터베이스(Vector Database)

고차원 벡터 임베딩을 저장하고 유사도 검색을 수행하는 데이터베이스입니다.

  • 임베딩(Embedding): 텍스트, 이미지, 오디오를 숫자 벡터로 변환. 의미적 유사성이 벡터 거리로 표현
  • ANN(Approximate Nearest Neighbor) 검색: 정확한 최근접 이웃이 아닌 근사 검색. HNSW(Hierarchical Navigable Small World) 알고리즘
  • 주요 솔루션: Pinecone(관리형), Weaviate, Chroma, Milvus, pgvector(PostgreSQL 확장)
  • 활용: RAG(Retrieval-Augmented Generation), 의미 검색, 추천 시스템, 이미지 유사도 검색

RAG(Retrieval-Augmented Generation)

LLM의 환각(Hallucination)을 줄이고 최신 정보를 활용하기 위해 벡터 검색을 결합한 패턴입니다.

  • 단계: 질문 임베딩 → 벡터 DB 유사도 검색 → 관련 문서 검색 → LLM에 컨텍스트로 제공 → 답변 생성
  • Chunk 전략: 문서를 적절한 크기의 청크로 분할. 오버랩 설정으로 컨텍스트 유지

시계열 데이터베이스(Time-Series DB)

  • 특성: 타임스탬프가 주요 인덱스. 시간 순서 삽입, 범위 쿼리 최적화. 데이터 보존 정책(Retention)
  • 주요 솔루션: InfluxDB(IoT·모니터링), TimescaleDB(PostgreSQL 기반), Prometheus(메트릭)
  • Downsampling: 오래된 데이터를 집계해 저장 공간 절약. 초단위 → 분단위 → 시간단위

NewSQL

전통적 RDBMS의 ACID 보장 + NoSQL의 수평 확장성을 결합한 데이터베이스입니다.

  • CockroachDB: PostgreSQL 호환. 분산 SQL. 자동 샤딩. 지리적 분산
  • TiDB: MySQL 호환. HTAP(OLTP + OLAP 통합)
  • Spanner(Google): 전 세계적으로 일관성 있는 분산 RDBMS. TrueTime API

정보처리기사 기출 핵심 정리

  • 벡터 DB = 임베딩 유사도 검색, HNSW 알고리즘
  • RAG = 벡터 검색 + LLM 결합, 환각 방지
  • 시계열 DB = 타임스탬프 인덱스, Downsampling
  • NewSQL = ACID + 수평 확장(CockroachDB, TiDB)
  • pgvector = PostgreSQL에 벡터 검색 기능 추가

Leave a Comment