이미지·오디오·비디오를 텍스트와 함께 처리하는 Multimodal LLM의 개념, ViT·Cross-modal Alignment 등 핵심 기술, 의료·교육 활용 사례와 한계점을 해설합니다.