RLHF

정보관리기술사

제134회 정보관리기술사 3교시 1번 — LLM 파인튜닝 기법 비교(LoRA·QLoRA·Prompt Tuning)

LLM 파인튜닝 기법 Full FT·LoRA 저랭크 행렬 근사·QLoRA 4-bit 양자화·Prompt/Prefix Tuning·SFT+RLHF PPO 파이프라인 종합 비교

2개월 ago

정보관리기술사

제134회 정보관리기술사 1교시 2번 — 강화학습(Q-Learning·Policy Gradient)과 RLHF

강화학습 개념과 구성 요소, Q-러닝 vs 정책 경사법 비교, RLHF의 LLM 정렬(Alignment) 적용 3단계를 해설합니다.

2개월 ago

정보관리기술사

[정보관리기술사 137회 1교시 1번] 생성형 AI 환각(Hallucination) 현상과 완화 기법

LLM이 사실과 다른 내용을 그럴듯하게 생성하는 환각(Hallucination) 현상의 유형, 발생 원인, RAG·RLHF 등 완화 기법을 기술사 모범답안 형식으로 정리합니다.

2개월 ago