강화학습

제134회 정보관리기술사 1교시 2번 — 강화학습(Q-Learning·Policy Gradient)과 RLHF

강화학습 개념과 구성 요소, Q-러닝 vs 정책 경사법 비교, RLHF의 LLM 정렬(Alignment) 적용 3단계를 해설합니다.

6일 ago