사전 학습된 대규모 언어모델(LLM)을 특정 도메인·태스크에 최적화하는 파인튜닝(Fine-Tuning) 기법은 Full Fine-Tuning부터 PEFT 계열(LoRA·QLoRA·Prompt Tuning)까지 다양하게 발전하고 있습니다.
모든 모델 파라미터를 도메인 데이터로 재학습합니다. 성능은 가장 높지만 모델 전체를 GPU에 올려야 하므로 LLaMA-2 70B 기준 수백 GB VRAM이 필요합니다.
사전 학습된 가중치 행렬 W를 동결(freeze)하고, 변화량 ΔW를 두 개의 저랭크(Low-Rank) 행렬 A, B의 곱으로 근사합니다.
| 구분 | Full FT | LoRA |
|---|---|---|
| 학습 파라미터 | 100% | 0.1~1% |
| GPU 메모리 | 매우 높음 | 크게 감소 |
| 학습 속도 | 느림 | 빠름 |
| 성능 | 최고 | Full FT에 근접 |
기반 모델을 4-bit NF4(NormalFloat4) 양자화(Quantization)로 압축한 뒤, LoRA 어댑터는 BFloat16 정밀도로 학습합니다. 단일 소비자용 GPU(24GB)에서도 70B 모델 파인튜닝이 가능합니다.
| 기법 | 방식 | 특징 |
|---|---|---|
| Prompt Tuning | 입력 앞에 학습 가능한 소프트 토큰(Soft Prompt) 추가 | 모델 파라미터 전혀 수정 안 함, 가장 경량 |
| Prefix Tuning | 각 Transformer 레이어의 Key·Value에 학습 가능한 Prefix 추가 | Prompt Tuning보다 더 강력한 조정 |
| IA3 | 활성화 함수에 학습 가능한 벡터 곱셈 | LoRA보다 더 적은 파라미터 |
| 기법 | 학습 파라미터 | GPU 요구량 | 성능 | 적합 상황 |
|---|---|---|---|---|
| Full FT | 100% | 매우 높음 | 최고 | 충분한 GPU 보유 기업 |
| LoRA | ~1% | 보통 | 높음 | A100 1~2장으로 7B~13B 모델 |
| QLoRA | ~1% | 낮음 | 높음 | RTX 3090/4090급 1장으로 70B |
| Prompt Tuning | 극소 | 최소 | 중간 | 모델 동결 필수 환경 |
요양원 선택 전 반드시 확인해야 할 체크리스트를 공개합니다. 공식 평가 자료 조회법, 방문 시 확인…
공공기관 채용 비리의 실태와 피해 지원자의 대응법을 정리했습니다. 채용 비리 신고 방법, 공익신고자 보호제도, 취준생…
주식 손실을 세금 절약에 활용하는 합법적 방법을 공개합니다. 해외주식 손익통산, ISA 계좌 활용, 연금계좌 절세까지…
배달이 예상 시간보다 크게 늦으면 취소·환불을 요청할 수 있습니다. 배달앱별 지연 취소 방법과 잘못 배달됐을…
통신비 절약의 핵심은 요금제 최적화입니다. 내 데이터 사용량 확인법, 알뜰폰 전환 비교, 위약금 없이 요금제…