[제135회 정보관리기술사 1교시 2번] Multimodal LLM — 텍스트를 넘어 시각·음성까지 이해하는 AI
이미지·오디오·비디오를 텍스트와 함께 처리하는 Multimodal LLM의 개념, ViT·Cross-modal Alignment 등 핵심 기술, 의료·교육 활용 사례와 한계점을 해설합니다.
이미지·오디오·비디오를 텍스트와 함께 처리하는 Multimodal LLM의 개념, ViT·Cross-modal Alignment 등 핵심 기술, 의료·교육 활용 사례와 한계점을 해설합니다.