NLTK (Natural Language Toolkit)

NLTK (Natural Language Toolkit)는 자연어 처리를 위한 파이썬 라이브러리로, 텍스트 분석, 토큰화, 형태소 분석, 품사 태깅, 구문 분석, 의미 분석 등의 다양한 기능을 제공합니다. 다음과 같은 고유한 특징을 가지고 있습니다.

1️⃣ 방대한 언어 데이터셋 제공

NLTK는 100개 이상의 자연어 데이터셋과 다양한 코퍼스를 포함하고 있어, 실험 및 연구 목적으로 매우 유용합니다.

  • 코퍼스 예시:
    • brown (브라운 코퍼스)
    • gutenberg (구텐베르크 프로젝트)
    • wordnet (어휘 의미 네트워크)
    • stopwords (불용어 리스트)
    • names (영어 이름 리스트)

📌 예제: WordNet 사용

from nltk.corpus import wordnet

syns = wordnet.synsets("bank")
print(syns[0].definition()) # "Financial institution that accepts deposits"

2️⃣ 문장 및 단어 토큰화 (Tokenization)

NLTK는 다양한 토큰화 기법을 지원하여 문장을 세분화하는 데 강력한 기능을 제공합니다.

  • 단어 토큰화 (word_tokenize)
  • 문장 토큰화 (sent_tokenize)
  • n-그램 분석 (ngrams)

📌 예제: 문장 및 단어 토큰화

from nltk.tokenize import word_tokenize, sent_tokenize

text = "NLTK is powerful. It helps with NLP tasks."
print(sent_tokenize(text)) # ['NLTK is powerful.', 'It helps with NLP tasks.']
print(word_tokenize(text)) # ['NLTK', 'is', 'powerful', '.', 'It', 'helps', 'with', 'NLP', 'tasks', '.']

3️⃣ 강력한 형태소 분석 (Stemming & Lemmatization)

NLTK는 여러 종류의 어간 추출(Stemming)표제어 추출(Lemmatization) 기능을 제공합니다.

📌 예제: 어간 추출 (PorterStemmer)

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("running")) # "run"
print(stemmer.stem("flies")) # "fli"

📌 예제: 표제어 추출 (WordNetLemmatizer)

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v")) # "run"

차이점:

  • Stemming: 단순한 규칙 기반 변환 (정확도가 낮을 수 있음).
  • Lemmatization: 문맥을 고려한 변환 (더 정확함).

4️⃣ 품사 태깅 (Part-of-Speech Tagging)

NLTK는 단어의 **품사(POS, Part of Speech)**를 자동으로 태깅하는 기능을 제공합니다.

📌 예제: 품사 태깅 (pos_tag)

from nltk import pos_tag

tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens))

출력: [('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]

  • NNP (고유명사)
  • VBZ (현재형 동사)
  • VBG (현재분사)
  • NN (일반 명사)

5️⃣ 문장 유사도 분석 및 의미 분석

NLTK는 WordNet을 활용한 단어 유사도 및 의미 분석 기능을 제공합니다.

📌 예제: 두 단어 간 유사도 비교

from nltk.corpus import wordnet

word1 = wordnet.synset("car.n.01")
word2 = wordnet.synset("automobile.n.01")
print(word1.wup_similarity(word2)) # 1.0 (완전히 같은 의미)

6️⃣ 구문 분석 (Parsing)

NLTK는 문장의 문법 구조를 분석하는 기능을 제공하며, CFG(Context-Free Grammar) 기반 구문 분석을 지원합니다.

📌 예제: 간단한 문법 분석

python복사편집from nltk import CFG

grammar = CFG.fromstring("""
    S -> NP VP
    NP -> 'John' | 'Mary'
    VP -> 'eats' | 'runs'
""")
print(grammar)

7️⃣ 감정 분석 및 텍스트 분류

NLTK는 지도 학습과 비지도 학습을 위한 다양한 도구를 제공하며, 감정 분석과 텍스트 분류를 지원합니다.

📌 예제: 감정 분석용 단어 추출

from nltk.sentiment import SentimentIntensityAnalyzer

nltk.download('vader_lexicon')
sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores("I love this product!")) # {'neg': 0.0, 'neu': 0.214, 'pos': 0.786, 'compound': 0.8316}

8️⃣ 영어 이외의 다국어 지원NLTK는 기본적으로 영어 중심이지만, 추가 리소스를 활용하면 한국어, 프랑스어, 독일어 등의 다양한 언어를 지원할 수 있습니다.

📌 예제: 한국어 형태소 분석 (KoNLPy 연동)

from konlpy.tag import Okt

okt = Okt()
print(okt.morphs("안녕하세요, 자연어 처리를 공부합니다!")) # ['안녕하세요', ',', '자연어', '처리', '를', '공부', '합니다', '!']

NLTK는 한국어 분석 기능이 기본 내장되어 있지 않으므로 KoNLPy와 같은 외부 라이브러리를 함께 사용하는 것이 일반적입니다.

✅ NLTK만의 강점

특징설명
방대한 코퍼스Brown, WordNet, Stopwords 등 다양한 언어 데이터셋 제공
토큰화 및 구문 분석단어, 문장 토큰화 및 CFG 기반 구문 분석 지원
형태소 분석어간 추출(Stemming), 표제어 추출(Lemmatization) 제공
품사 태깅pos_tag()로 문장 내 단어의 품사 분석
의미 분석WordNet 기반 유사도 계산 및 개념 관계 분석
감정 분석VADER Lexicon을 활용한 감정 분석 지원
다양한 언어 지원KoNLPy 등 외부 라이브러리와 연동 가능

🚀 NLTK를 언제 사용해야 할까?

연구 및 교육용: NLP 개념을 학습하고 실험하는 데 최적
기본적인 NLP 처리: 토큰화, 품사 태깅, 문장 분석 등이 필요할 때
맞춤형 NLP 개발: 직접 알고리즘을 구축하고 싶을 때

실무 프로젝트에는 spaCy 또는 transformers(Hugging Face)처럼 더 빠르고 효율적인 라이브러리를 고려하는 것이 좋습니다.

📌 NLTK는 강력한 NLP 기능과 방대한 데이터셋을 제공하는 연구 및 학습용 라이브러리입니다. 하지만 실무에서는 속도가 느리므로, 특정 작업에는 spaCy, transformers, KoNLPy 등을 함께 활용하는 것이 좋습니다.

📌 NLTK vs spaCy

기능NLTKspaCy
속도느림빠름
문법 분석강력한 품사 태깅, 구문 분석더 정교한 품사 태깅 및 구문 분석
사용 용이성다양하지만 설정 필요직관적이고 빠름
딥러닝 지원제한적통합 지원
  • NLTK는 연구 및 학습용으로 유용하며, 다양한 NLP 기능을 직접 실험 가능.
  • spaCy는 속도가 빠르고 실무에서 머신러닝 모델과 함께 사용하기 적합.

📌 NLTK 설치

pip install nltk

설치 후, 필요한 리소스를 다운로드하려면 Python 인터프리터에서 실행:

import nltk
nltk.download('all') # 전체 다운로드 (시간 오래 걸림)
nltk.download('punkt') # 토큰화를 위한 패키지
nltk.download('stopwords') # 불용어 리스트
nltk.download('wordnet') # WordNet (어휘 관계)

📝 NLTK 주요 기능 실습

1️⃣ 토큰화 (Tokenization)

from nltk.tokenize import word_tokenize, sent_tokenize

text = "NLTK is a leading platform for building Python programs to work with human language data."
print(word_tokenize(text)) # 단어 기준 토큰화
print(sent_tokenize(text)) # 문장 기준 토큰화

2️⃣ 불용어 제거 (Stopwords Removal)

from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
words = word_tokenize("This is an example showing off stop word filtration.")
filtered_words = [w for w in words if w.lower() not in stop_words]
print(filtered_words)

3️⃣ 품사 태깅 (Part-of-Speech Tagging)

from nltk import pos_tag

tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens))

출력 예시: [('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]

4️⃣ 어간 추출 (Stemming)

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("running")) # run
print(stemmer.stem("flies")) # fli

5️⃣ 표제어 추출 (Lemmatization)

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v")) # run
print(lemmatizer.lemmatize("flies", pos="n")) # fly

6️⃣ n-그램 (N-grams)

from nltk.util import ngrams

text = word_tokenize("I love natural language processing.")
bigrams = list(ngrams(text, 2))
print(bigrams)

7️⃣ 문장 유사도 분석 (WordNet을 이용한 의미 분석)

from nltk.corpus import wordnet

syns = wordnet.synsets("computer")
print(syns[0].definition()) # 단어 정의
print(syns[0].examples()) # 예문

📌 정리

  • NLTK는 자연어 처리를 위한 강력한 라이브러리로 다양한 기능을 제공.
  • 텍스트 토큰화, 불용어 제거, 품사 태깅, 어간 추출, 표제어 추출 등의 기능 활용 가능.
  • 학습과 실험에 적합하지만, 실무에서는 속도가 빠른 spaCy가 더 많이 사용됨.

Leave a Comment