강화학습(RL)은 에이전트가 환경과 상호작용하며 보상 최대화를 목표로 행동 정책을 학습하는 ML 패러다임이다.
| 구성 요소 | 설명 |
|---|---|
| 에이전트(Agent) | 의사결정 주체. 상태를 관찰하고 행동 선택 |
| 환경(Environment) | 에이전트가 상호작용하는 외부 세계 |
| 상태(State, s) | 현재 환경 상황 표현 |
| 행동(Action, a) | 에이전트가 취할 수 있는 선택지 |
| 보상(Reward, r) | 행동에 대한 즉각적인 피드백 신호 |
| 구분 | Q-Learning | Policy Gradient |
|---|---|---|
| 학습 대상 | Q함수 Q(s,a): 상태-행동 가치 학습 | 정책 π(a|s) 직접 최적화 |
| 적용 | 이산 행동 공간 (DQN, Atari 게임) | 연속 행동 공간 (PPO, SAC, 로봇 제어) |
| 대표 알고리즘 | DQN, Double DQN, Dueling DQN | REINFORCE, PPO, A3C |
RLHF는 LLM을 인간의 선호도에 맞게 정렬(Alignment)하는 기법으로, ChatGPT·Claude·Gemini 모두 적용했다.
요양원 선택 전 반드시 확인해야 할 체크리스트를 공개합니다. 공식 평가 자료 조회법, 방문 시 확인…
공공기관 채용 비리의 실태와 피해 지원자의 대응법을 정리했습니다. 채용 비리 신고 방법, 공익신고자 보호제도, 취준생…
주식 손실을 세금 절약에 활용하는 합법적 방법을 공개합니다. 해외주식 손익통산, ISA 계좌 활용, 연금계좌 절세까지…
배달이 예상 시간보다 크게 늦으면 취소·환불을 요청할 수 있습니다. 배달앱별 지연 취소 방법과 잘못 배달됐을…
통신비 절약의 핵심은 요금제 최적화입니다. 내 데이터 사용량 확인법, 알뜰폰 전환 비교, 위약금 없이 요금제…