[제135회 정보관리기술사 1교시 2번] Multimodal LLM — 텍스트를 넘어 시각·음성까지 이해하는 AI

📋 정보관리기술사 기출문제 해설

Table of Contents

제135회 · 1교시 · 2번

배점: 10점 | 유형: 단답형

📌 원문 문제

Multimodal LLM(Large Language Model)을 설명하시오.

🔍 출제 의도 분석

생성형 AI 분야에서 가장 뜨거운 주제 중 하나입니다. GPT-4V, Gemini, Claude Vision의 등장으로 AI가 이미지를 보고 이해하는 것이 일상화됐고, 이 기술의 작동 원리를 이해하는 것이 현업 엔지니어에게도 필수가 됐습니다. 단답형이지만 모달리티의 종류, 아키텍처, 학습 방법, 한계까지 체계적으로 서술하면 높은 점수를 받을 수 있습니다.

1. Multimodal LLM의 개념

Multimodal LLM(멀티모달 대형언어모델)이란 텍스트만이 아닌 이미지, 오디오, 비디오 등 복수의 모달리티(양식)를 동시에 이해하고 통합 추론할 수 있는 대형언어모델입니다.

사람은 자연스럽게 눈으로 보고, 귀로 듣고, 글로 읽은 정보를 함께 처리합니다. Multimodal LLM은 AI에게도 이러한 통합 지각 능력을 부여하는 기술입니다.

모달리티	입력 형태	처리 기술	주요 활용
텍스트	자연어, 코드, 수식	Transformer	문서 요약, 코드 생성
이미지	PNG, JPG, 의료 영상	ViT, CNN	이미지 캡셔닝, 의료 진단
오디오	음성, 환경음	Whisper, HuBERT	음성 인식, 감정 분석
비디오	연속 프레임	Video Transformer	영상 요약, 행동 인식
문서/표	PDF, Excel, 도면	Document AI	계약서 분석, 데이터 추출

2. 핵심 아키텍처

▲ Multimodal LLM 아키텍처 — 각 모달리티 인코더 → 특징 정렬 → LLM 통합 추론

① 모달리티별 인코더

이미지 인코더 (ViT, Vision Transformer): 이미지를 16×16 픽셀 패치로 분할 후 각 패치를 토큰으로 변환하여 Transformer에 입력
오디오 인코더 (Whisper, HuBERT): 음성 신호를 스펙트로그램으로 변환 후 특징 추출
텍스트 인코더: 기존 LLM 토크나이저 활용

② 특징 정렬 (Cross-modal Alignment)

서로 다른 모달리티의 표현 벡터를 동일한 임베딩 공간에 정렬하는 핵심 기술입니다. 이를 통해 “고양이 이미지”와 “cat이라는 텍스트”가 임베딩 공간에서 가까운 위치에 놓이게 됩니다.

CLIP(Contrastive Language-Image Pretraining): 이미지-텍스트 쌍을 대조 학습으로 정렬
Projection Layer: 각 인코더 출력을 LLM 입력 차원으로 변환

③ 통합 LLM 백본

정렬된 멀티모달 토큰을 기존 Transformer 기반 LLM에 입력하여 통합 추론과 텍스트 생성을 수행합니다.

3. 학습 방법

사전 학습: 대규모 이미지-텍스트 쌍(LAION-5B 등) 기반 대조 학습으로 멀티모달 표현 획득
지시 학습 (Instruction Tuning): 멀티모달 지시-응답 데이터셋으로 파인튜닝 (LLaVA, BLIP-2 방식)
RLHF: 인간 선호도 기반 강화학습으로 안전성·유용성 향상

4. 활용 분야 및 한계

구분	세부 내용
의료	X-ray·MRI 분석, 피부 병변 진단 보조
교육	그림 문제 풀이, 수식 이미지 인식, AI 튜터
법률/금융	계약서 이미지 분석, 재무제표 도표 해석
제조	도면 이해, 불량 이미지 분류
한계: 환각	이미지에 없는 내용을 생성하는 시각적 환각(Visual Hallucination)
한계: 비용	고해상도 이미지 처리 시 높은 GPU 메모리 요구량
한계: 편향	특정 언어·문화권 이미지 인식 성능 차이

5. 결론

Multimodal LLM은 AI가 인간처럼 시각·언어·청각을 통합적으로 이해하는 능력을 갖추게 하는 핵심 기술입니다. 아직 환각 문제 등 한계가 존재하지만, 의료·교육·제조 등 다양한 산업에서 실질적 가치를 만들어내고 있으며 AGI 달성의 중요한 디딤돌로 평가받고 있습니다.