NLTK (Natural Language Toolkit)는 자연어 처리를 위한 파이썬 라이브러리로, 텍스트 분석, 토큰화, 형태소 분석, 품사 태깅, 구문 분석, 의미 분석 등의 다양한 기능을 제공합니다. 다음과 같은 고유한 특징을 가지고 있습니다.
NLTK는 100개 이상의 자연어 데이터셋과 다양한 코퍼스를 포함하고 있어, 실험 및 연구 목적으로 매우 유용합니다.
brown (브라운 코퍼스)gutenberg (구텐베르크 프로젝트)wordnet (어휘 의미 네트워크)stopwords (불용어 리스트)names (영어 이름 리스트)📌 예제: WordNet 사용
from nltk.corpus import wordnet
syns = wordnet.synsets("bank")
print(syns[0].definition()) # "Financial institution that accepts deposits" NLTK는 다양한 토큰화 기법을 지원하여 문장을 세분화하는 데 강력한 기능을 제공합니다.
word_tokenize)sent_tokenize)ngrams)📌 예제: 문장 및 단어 토큰화
from nltk.tokenize import word_tokenize, sent_tokenize
text = "NLTK is powerful. It helps with NLP tasks."
print(sent_tokenize(text)) # ['NLTK is powerful.', 'It helps with NLP tasks.']
print(word_tokenize(text)) # ['NLTK', 'is', 'powerful', '.', 'It', 'helps', 'with', 'NLP', 'tasks', '.'] NLTK는 여러 종류의 어간 추출(Stemming) 및 표제어 추출(Lemmatization) 기능을 제공합니다.
📌 예제: 어간 추출 (PorterStemmer)
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("running")) # "run"
print(stemmer.stem("flies")) # "fli" 📌 예제: 표제어 추출 (WordNetLemmatizer)
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v")) # "run" ✅ 차이점:
NLTK는 단어의 **품사(POS, Part of Speech)**를 자동으로 태깅하는 기능을 제공합니다.
📌 예제: 품사 태깅 (pos_tag)
from nltk import pos_tag
tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens)) 출력:
[('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]
NNP (고유명사)VBZ (현재형 동사)VBG (현재분사)NN (일반 명사)NLTK는 WordNet을 활용한 단어 유사도 및 의미 분석 기능을 제공합니다.
📌 예제: 두 단어 간 유사도 비교
from nltk.corpus import wordnet
word1 = wordnet.synset("car.n.01")
word2 = wordnet.synset("automobile.n.01")
print(word1.wup_similarity(word2)) # 1.0 (완전히 같은 의미) NLTK는 문장의 문법 구조를 분석하는 기능을 제공하며, CFG(Context-Free Grammar) 기반 구문 분석을 지원합니다.
📌 예제: 간단한 문법 분석
python복사편집from nltk import CFG
grammar = CFG.fromstring("""
S -> NP VP
NP -> 'John' | 'Mary'
VP -> 'eats' | 'runs'
""")
print(grammar)
NLTK는 지도 학습과 비지도 학습을 위한 다양한 도구를 제공하며, 감정 분석과 텍스트 분류를 지원합니다.
📌 예제: 감정 분석용 단어 추출
from nltk.sentiment import SentimentIntensityAnalyzer
nltk.download('vader_lexicon')
sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores("I love this product!")) # {'neg': 0.0, 'neu': 0.214, 'pos': 0.786, 'compound': 0.8316} 📌 예제: 한국어 형태소 분석 (KoNLPy 연동)
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("안녕하세요, 자연어 처리를 공부합니다!")) # ['안녕하세요', ',', '자연어', '처리', '를', '공부', '합니다', '!'] NLTK는 한국어 분석 기능이 기본 내장되어 있지 않으므로 KoNLPy와 같은 외부 라이브러리를 함께 사용하는 것이 일반적입니다.
| 특징 | 설명 |
|---|---|
| 방대한 코퍼스 | Brown, WordNet, Stopwords 등 다양한 언어 데이터셋 제공 |
| 토큰화 및 구문 분석 | 단어, 문장 토큰화 및 CFG 기반 구문 분석 지원 |
| 형태소 분석 | 어간 추출(Stemming), 표제어 추출(Lemmatization) 제공 |
| 품사 태깅 | pos_tag()로 문장 내 단어의 품사 분석 |
| 의미 분석 | WordNet 기반 유사도 계산 및 개념 관계 분석 |
| 감정 분석 | VADER Lexicon을 활용한 감정 분석 지원 |
| 다양한 언어 지원 | KoNLPy 등 외부 라이브러리와 연동 가능 |
✅ 연구 및 교육용: NLP 개념을 학습하고 실험하는 데 최적
✅ 기본적인 NLP 처리: 토큰화, 품사 태깅, 문장 분석 등이 필요할 때
✅ 맞춤형 NLP 개발: 직접 알고리즘을 구축하고 싶을 때
❌ 실무 프로젝트에는 spaCy 또는 transformers(Hugging Face)처럼 더 빠르고 효율적인 라이브러리를 고려하는 것이 좋습니다.
📌 NLTK는 강력한 NLP 기능과 방대한 데이터셋을 제공하는 연구 및 학습용 라이브러리입니다. 하지만 실무에서는 속도가 느리므로, 특정 작업에는 spaCy, transformers, KoNLPy 등을 함께 활용하는 것이 좋습니다.
| 기능 | NLTK | spaCy |
|---|---|---|
| 속도 | 느림 | 빠름 |
| 문법 분석 | 강력한 품사 태깅, 구문 분석 | 더 정교한 품사 태깅 및 구문 분석 |
| 사용 용이성 | 다양하지만 설정 필요 | 직관적이고 빠름 |
| 딥러닝 지원 | 제한적 | 통합 지원 |
pip install nltk 설치 후, 필요한 리소스를 다운로드하려면 Python 인터프리터에서 실행:
import nltk
nltk.download('all') # 전체 다운로드 (시간 오래 걸림)
nltk.download('punkt') # 토큰화를 위한 패키지
nltk.download('stopwords') # 불용어 리스트
nltk.download('wordnet') # WordNet (어휘 관계) from nltk.tokenize import word_tokenize, sent_tokenize
text = "NLTK is a leading platform for building Python programs to work with human language data."
print(word_tokenize(text)) # 단어 기준 토큰화
print(sent_tokenize(text)) # 문장 기준 토큰화 from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words = word_tokenize("This is an example showing off stop word filtration.")
filtered_words = [w for w in words if w.lower() not in stop_words]
print(filtered_words) from nltk import pos_tag
tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens)) 출력 예시:
[('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("running")) # run
print(stemmer.stem("flies")) # fli from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v")) # run
print(lemmatizer.lemmatize("flies", pos="n")) # fly from nltk.util import ngrams
text = word_tokenize("I love natural language processing.")
bigrams = list(ngrams(text, 2))
print(bigrams) from nltk.corpus import wordnet
syns = wordnet.synsets("computer")
print(syns[0].definition()) # 단어 정의
print(syns[0].examples()) # 예문 📌 정리
코스피 8% 폭락, 서킷브레이커 발동, SK텔레콤 Claude AI 차단까지. 한국의 AI 레버리지 버블이 단 하루…
SNS 사진 1장으로 30초 만에 딥페이크 영상이 완성됩니다. 당신의 얼굴이 이미 범죄에 악용되고 있을 수…
SNS 사진 1장으로 30초 만에 딥페이크 영상이 완성됩니다. 당신의 얼굴이 이미 범죄에 악용되고 있을 수…
달러/원 환율이 급등하는 이유와 실생활 영향을 정리했습니다. 지금 당장 활용할 수 있는 환전·투자 대응 전략까지…
미래에셋·미래에셋벤처투자·미래에셋생명이 동반 급등한 이유는 스페이스X 상장 기대감입니다. 세 회사가 스페이스X와 어떻게 연결되어 있는지 상세히 분석했습니다.
스페이스X 상장이 계속 미뤄지는 진짜 이유를 파헤쳤습니다. 화성 계획, 스타링크 분리, 국방 계약... 머스크가 절대…