Multimodal LLM(Large Language Model)을 설명하시오.
🔍 출제 의도 분석
생성형 AI 분야에서 가장 뜨거운 주제 중 하나입니다. GPT-4V, Gemini, Claude Vision의 등장으로 AI가 이미지를 보고 이해하는 것이 일상화됐고, 이 기술의 작동 원리를 이해하는 것이 현업 엔지니어에게도 필수가 됐습니다. 단답형이지만 모달리티의 종류, 아키텍처, 학습 방법, 한계까지 체계적으로 서술하면 높은 점수를 받을 수 있습니다.
1. Multimodal LLM의 개념
Multimodal LLM(멀티모달 대형언어모델)이란 텍스트만이 아닌 이미지, 오디오, 비디오 등 복수의 모달리티(양식)를 동시에 이해하고 통합 추론할 수 있는 대형언어모델입니다.
사람은 자연스럽게 눈으로 보고, 귀로 듣고, 글로 읽은 정보를 함께 처리합니다. Multimodal LLM은 AI에게도 이러한 통합 지각 능력을 부여하는 기술입니다.
| 모달리티 | 입력 형태 | 처리 기술 | 주요 활용 |
|---|---|---|---|
| 텍스트 | 자연어, 코드, 수식 | Transformer | 문서 요약, 코드 생성 |
| 이미지 | PNG, JPG, 의료 영상 | ViT, CNN | 이미지 캡셔닝, 의료 진단 |
| 오디오 | 음성, 환경음 | Whisper, HuBERT | 음성 인식, 감정 분석 |
| 비디오 | 연속 프레임 | Video Transformer | 영상 요약, 행동 인식 |
| 문서/표 | PDF, Excel, 도면 | Document AI | 계약서 분석, 데이터 추출 |
2. 핵심 아키텍처
▲ Multimodal LLM 아키텍처 — 각 모달리티 인코더 → 특징 정렬 → LLM 통합 추론
① 모달리티별 인코더
- 이미지 인코더 (ViT, Vision Transformer): 이미지를 16×16 픽셀 패치로 분할 후 각 패치를 토큰으로 변환하여 Transformer에 입력
- 오디오 인코더 (Whisper, HuBERT): 음성 신호를 스펙트로그램으로 변환 후 특징 추출
- 텍스트 인코더: 기존 LLM 토크나이저 활용
② 특징 정렬 (Cross-modal Alignment)
서로 다른 모달리티의 표현 벡터를 동일한 임베딩 공간에 정렬하는 핵심 기술입니다. 이를 통해 “고양이 이미지”와 “cat이라는 텍스트”가 임베딩 공간에서 가까운 위치에 놓이게 됩니다.
- CLIP(Contrastive Language-Image Pretraining): 이미지-텍스트 쌍을 대조 학습으로 정렬
- Projection Layer: 각 인코더 출력을 LLM 입력 차원으로 변환
③ 통합 LLM 백본
정렬된 멀티모달 토큰을 기존 Transformer 기반 LLM에 입력하여 통합 추론과 텍스트 생성을 수행합니다.
3. 학습 방법
- 사전 학습: 대규모 이미지-텍스트 쌍(LAION-5B 등) 기반 대조 학습으로 멀티모달 표현 획득
- 지시 학습 (Instruction Tuning): 멀티모달 지시-응답 데이터셋으로 파인튜닝 (LLaVA, BLIP-2 방식)
- RLHF: 인간 선호도 기반 강화학습으로 안전성·유용성 향상
4. 활용 분야 및 한계
| 구분 | 세부 내용 |
|---|---|
| 의료 | X-ray·MRI 분석, 피부 병변 진단 보조 |
| 교육 | 그림 문제 풀이, 수식 이미지 인식, AI 튜터 |
| 법률/금융 | 계약서 이미지 분석, 재무제표 도표 해석 |
| 제조 | 도면 이해, 불량 이미지 분류 |
| 한계: 환각 | 이미지에 없는 내용을 생성하는 시각적 환각(Visual Hallucination) |
| 한계: 비용 | 고해상도 이미지 처리 시 높은 GPU 메모리 요구량 |
| 한계: 편향 | 특정 언어·문화권 이미지 인식 성능 차이 |
5. 결론
Multimodal LLM은 AI가 인간처럼 시각·언어·청각을 통합적으로 이해하는 능력을 갖추게 하는 핵심 기술입니다. 아직 환각 문제 등 한계가 존재하지만, 의료·교육·제조 등 다양한 산업에서 실질적 가치를 만들어내고 있으며 AGI 달성의 중요한 디딤돌로 평가받고 있습니다.