Pretraining(사전 훈련) 은 대량의 텍스트 데이터를 기반으로 모델이 언어 패턴을 학습하는 초기 단계입니다. 이 과정에서 모델은 특정 작업에 최적화되지 않은 일반적인 언어 이해 능력을 습득합니다. (GPT에서 P)
사전 학습 모델은 크게 Language Understanding 와 Language Generation 으로 나뉨.
일부 단어를 [MASK]로 가린 후 이를 예측하는 방식
BERT가 대표적인 모델
from transformers import pipeline
fill_mask = pipeline("fill-mask", model="bert-base-uncased")
print(fill_mask("Hugging Face is a [MASK] platform."))
이전 단어들을 기반으로 다음 단어를 예측
GPT 시리즈가 대표적인 모델
generator = pipeline("text-generation", model="gpt2")
print(generator("Once upon a time", max_length=30))
입력과 출력이 있는 텍스트 변환 방식
T5, BART 등이 대표적
translator = pipeline("translation_en_to_fr", model="t5-small")
print(translator("Hello, how are you?"))
모델 | 학습 방식 | 특징 |
---|---|---|
BERT | Masked Language Model (MLM) | 문장 이해, 양방향 학습 |
GPT-2 | Causal Language Model (CLM) | 텍스트 생성에 특화 |
T5 | Text-to-Text Model | 모든 NLP 태스크를 텍스트 변환 방식으로 통합 |
RoBERTa | MLM (BERT 변형) | 더 많은 데이터를 활용하여 BERT 개선 |
DistilBERT | 경량화된 BERT | 연산량 감소, 속도 향상 |
import tensorflow as tf
from transformers import TFAutoModelForMaskedLM, AutoTokenizer
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForMaskedLM.from_pretrained(model_name)
text = "Hugging Face is a [MASK] platform for NLP."
tokens = tokenizer(text, return_tensors="tf")
output = model(**tokens)
print(output.logits.shape) # (batch_size, sequence_length, vocab_size)
윈도우 운영체제의 노트북에서는 iPhone 유선 테더링이 잘 안되는 경우가 많습니다. 보통 iPhone의 드라이버가 설치가 안되있어서인…
안녕하세요, 혹시 이런 생각해 본 적 없으신가요? "내가 투자한 회사는 누가 감시하고, 어떻게 운영될까?" 오늘은…
1. Gemini CLI란 무엇인가요? Gemini CLI는 터미널 환경에서 직접 Gemini 모델과 상호작용할 수 있도록 만들어진…
과적합은 머신러닝에서 학습용데이터를 과하게 학습하여, 실제데이터를 예측하지 못하는 현상을 말합니다. 인공지능(AI)의 학습 방법은 우리가 시험공부를…