[제138회 정보관리기술사 3교시 1번] LLM 기반 지능형 정보검색 시스템 — RAG 품질향상과 환각 완화 전략

📋 정보관리기술사 기출문제 해설

Table of Contents

제138회 · 3교시 · 1번

배점: 25점 | 유형: 서술형

📌 원문 문제

대규모 언어모델(LLM)을 기반으로 한 지능형 정보검색 시스템 구축에 대하여 다음을 설명하시오.
가. 기존 키워드 검색과 LLM 기반 의미 검색의 차이점
나. RAG(Retrieval Augmented Generation) 파이프라인 구성요소와 품질 향상 방안
다. LLM 기반 정보검색 시스템의 성능 평가 지표
라. 환각(Hallucination) 발생 원인과 완화 전략

출제 의도 분석

LLM 기반 검색 시스템은 2024년 이후 기업 정보 시스템의 핵심 패러다임으로 자리 잡았습니다. 단순한 RAG 개념을 넘어 품질 평가 지표와 환각 완화까지 묻는 실무 지향적 문제입니다. RAGAS 평가 프레임워크와 구체적인 환각 완화 전략을 중심으로 서술하면 고득점이 가능합니다.

가. 키워드 검색 vs LLM 기반 의미 검색 비교

구분	키워드 검색 (BM25/TF-IDF)	LLM 기반 의미 검색
검색 방식	단어 빈도·역문서 빈도 기반 매칭	임베딩 벡터 코사인 유사도 비교
의미 이해	동의어·문맥 이해 불가	의미적 유사성 기반 검색 가능
예시	“강아지” 검색 시 “개” 문서 미검색	“강아지” 검색 시 “개” 관련 문서 검색
다국어	언어별 형태소 분석 필요	다국어 임베딩 모델로 자동 처리
복잡 질의	“저렴하면서 배터리 긴 노트북”처리 어려움	복합 의도 파악하여 관련 문서 검색
성능 한계	정확 용어 불일치 시 검색 실패	임베딩 품질에 따라 성능 차이

현업에서는 두 방식을 결합한 하이브리드 검색(Hybrid Search)이 주류입니다. 키워드 검색의 정확도와 의미 검색의 재현율을 모두 확보합니다.

나. RAG 파이프라인 구성요소와 품질 향상 방안

품질 향상 방안:

Pre-retrieval (검색 전): Query Rewriting(질의 재작성), HyDE(가상 문서 임베딩), 쿼리 분해(Sub-query Decomposition)
Retrieval (검색 중): 하이브리드 검색(BM25 + Dense), Contextual Compression(컨텍스트 압축), 청크 크기 최적화
Post-retrieval (검색 후): Cross-encoder Re-ranking, LLM 기반 Relevance Scoring, Maximal Marginal Relevance(MMR)로 다양성 확보
Generation (생성): 출처 인용 강제화, Self-RAG(자체 반성 검색), Corrective RAG

다. 성능 평가 지표

평가 영역	지표	의미
검색 품질	Recall@K	상위 K개 결과에 정답 문서 포함 비율
검색 품질	MRR (Mean Reciprocal Rank)	정답 문서의 평균 역순위
생성 품질 (RAGAS)	Faithfulness	답변이 검색 문서에 근거하는 비율
	Answer Relevancy	답변이 질의와 얼마나 관련 있는가
	Context Precision/Recall	검색된 컨텍스트의 정밀도·재현율
종합	E2E Latency (P95)	사용자 체감 응답 시간 (95th percentile)