NLTK (Natural Language Toolkit)는 자연어 처리를 위한 파이썬 라이브러리로, 텍스트 분석, 토큰화, 형태소 분석, 품사 태깅, 구문 분석, 의미 분석 등의 다양한 기능을 제공합니다. 다음과 같은 고유한 특징을 가지고 있습니다.
NLTK는 100개 이상의 자연어 데이터셋과 다양한 코퍼스를 포함하고 있어, 실험 및 연구 목적으로 매우 유용합니다.
brown
(브라운 코퍼스)gutenberg
(구텐베르크 프로젝트)wordnet
(어휘 의미 네트워크)stopwords
(불용어 리스트)names
(영어 이름 리스트)📌 예제: WordNet 사용
from nltk.corpus import wordnet
syns = wordnet.synsets("bank")
print(syns[0].definition()) # "Financial institution that accepts deposits"
NLTK는 다양한 토큰화 기법을 지원하여 문장을 세분화하는 데 강력한 기능을 제공합니다.
word_tokenize
)sent_tokenize
)ngrams
)📌 예제: 문장 및 단어 토큰화
from nltk.tokenize import word_tokenize, sent_tokenize
text = "NLTK is powerful. It helps with NLP tasks."
print(sent_tokenize(text)) # ['NLTK is powerful.', 'It helps with NLP tasks.']
print(word_tokenize(text)) # ['NLTK', 'is', 'powerful', '.', 'It', 'helps', 'with', 'NLP', 'tasks', '.']
NLTK는 여러 종류의 어간 추출(Stemming) 및 표제어 추출(Lemmatization) 기능을 제공합니다.
📌 예제: 어간 추출 (PorterStemmer
)
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("running")) # "run"
print(stemmer.stem("flies")) # "fli"
📌 예제: 표제어 추출 (WordNetLemmatizer
)
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v")) # "run"
✅ 차이점:
NLTK는 단어의 **품사(POS, Part of Speech)**를 자동으로 태깅하는 기능을 제공합니다.
📌 예제: 품사 태깅 (pos_tag
)
from nltk import pos_tag
tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens))
출력:
[('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]
NNP
(고유명사)VBZ
(현재형 동사)VBG
(현재분사)NN
(일반 명사)NLTK는 WordNet을 활용한 단어 유사도 및 의미 분석 기능을 제공합니다.
📌 예제: 두 단어 간 유사도 비교
from nltk.corpus import wordnet
word1 = wordnet.synset("car.n.01")
word2 = wordnet.synset("automobile.n.01")
print(word1.wup_similarity(word2)) # 1.0 (완전히 같은 의미)
NLTK는 문장의 문법 구조를 분석하는 기능을 제공하며, CFG(Context-Free Grammar) 기반 구문 분석을 지원합니다.
📌 예제: 간단한 문법 분석
python복사편집from nltk import CFG
grammar = CFG.fromstring("""
S -> NP VP
NP -> 'John' | 'Mary'
VP -> 'eats' | 'runs'
""")
print(grammar)
NLTK는 지도 학습과 비지도 학습을 위한 다양한 도구를 제공하며, 감정 분석과 텍스트 분류를 지원합니다.
📌 예제: 감정 분석용 단어 추출
from nltk.sentiment import SentimentIntensityAnalyzer
nltk.download('vader_lexicon')
sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores("I love this product!")) # {'neg': 0.0, 'neu': 0.214, 'pos': 0.786, 'compound': 0.8316}
📌 예제: 한국어 형태소 분석 (KoNLPy 연동)
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("안녕하세요, 자연어 처리를 공부합니다!")) # ['안녕하세요', ',', '자연어', '처리', '를', '공부', '합니다', '!']
NLTK는 한국어 분석 기능이 기본 내장되어 있지 않으므로 KoNLPy와 같은 외부 라이브러리를 함께 사용하는 것이 일반적입니다.
특징 | 설명 |
---|---|
방대한 코퍼스 | Brown, WordNet, Stopwords 등 다양한 언어 데이터셋 제공 |
토큰화 및 구문 분석 | 단어, 문장 토큰화 및 CFG 기반 구문 분석 지원 |
형태소 분석 | 어간 추출(Stemming), 표제어 추출(Lemmatization) 제공 |
품사 태깅 | pos_tag() 로 문장 내 단어의 품사 분석 |
의미 분석 | WordNet 기반 유사도 계산 및 개념 관계 분석 |
감정 분석 | VADER Lexicon을 활용한 감정 분석 지원 |
다양한 언어 지원 | KoNLPy 등 외부 라이브러리와 연동 가능 |
✅ 연구 및 교육용: NLP 개념을 학습하고 실험하는 데 최적
✅ 기본적인 NLP 처리: 토큰화, 품사 태깅, 문장 분석 등이 필요할 때
✅ 맞춤형 NLP 개발: 직접 알고리즘을 구축하고 싶을 때
❌ 실무 프로젝트에는 spaCy
또는 transformers
(Hugging Face)처럼 더 빠르고 효율적인 라이브러리를 고려하는 것이 좋습니다.
📌 NLTK는 강력한 NLP 기능과 방대한 데이터셋을 제공하는 연구 및 학습용 라이브러리입니다. 하지만 실무에서는 속도가 느리므로, 특정 작업에는 spaCy
, transformers
, KoNLPy
등을 함께 활용하는 것이 좋습니다.
기능 | NLTK | spaCy |
---|---|---|
속도 | 느림 | 빠름 |
문법 분석 | 강력한 품사 태깅, 구문 분석 | 더 정교한 품사 태깅 및 구문 분석 |
사용 용이성 | 다양하지만 설정 필요 | 직관적이고 빠름 |
딥러닝 지원 | 제한적 | 통합 지원 |
pip install nltk
설치 후, 필요한 리소스를 다운로드하려면 Python 인터프리터에서 실행:
import nltk
nltk.download('all') # 전체 다운로드 (시간 오래 걸림)
nltk.download('punkt') # 토큰화를 위한 패키지
nltk.download('stopwords') # 불용어 리스트
nltk.download('wordnet') # WordNet (어휘 관계)
from nltk.tokenize import word_tokenize, sent_tokenize
text = "NLTK is a leading platform for building Python programs to work with human language data."
print(word_tokenize(text)) # 단어 기준 토큰화
print(sent_tokenize(text)) # 문장 기준 토큰화
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words = word_tokenize("This is an example showing off stop word filtration.")
filtered_words = [w for w in words if w.lower() not in stop_words]
print(filtered_words)
from nltk import pos_tag
tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens))
출력 예시:
[('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("running")) # run
print(stemmer.stem("flies")) # fli
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v")) # run
print(lemmatizer.lemmatize("flies", pos="n")) # fly
from nltk.util import ngrams
text = word_tokenize("I love natural language processing.")
bigrams = list(ngrams(text, 2))
print(bigrams)
from nltk.corpus import wordnet
syns = wordnet.synsets("computer")
print(syns[0].definition()) # 단어 정의
print(syns[0].examples()) # 예문
📌 정리
윈도우 운영체제의 노트북에서는 iPhone 유선 테더링이 잘 안되는 경우가 많습니다. 보통 iPhone의 드라이버가 설치가 안되있어서인…
안녕하세요, 혹시 이런 생각해 본 적 없으신가요? "내가 투자한 회사는 누가 감시하고, 어떻게 운영될까?" 오늘은…
1. Gemini CLI란 무엇인가요? Gemini CLI는 터미널 환경에서 직접 Gemini 모델과 상호작용할 수 있도록 만들어진…
과적합은 머신러닝에서 학습용데이터를 과하게 학습하여, 실제데이터를 예측하지 못하는 현상을 말합니다. 인공지능(AI)의 학습 방법은 우리가 시험공부를…