NLTK (Natural Language Toolkit)

NLTK (Natural Language Toolkit)는 자연어 처리를 위한 파이썬 라이브러리로, 텍스트 분석, 토큰화, 형태소 분석, 품사 태깅, 구문 분석, 의미 분석 등의 다양한 기능을 제공합니다. 다음과 같은 고유한 특징을 가지고 있습니다.

Table of Contents

Toggle

1️⃣ 방대한 언어 데이터셋 제공

NLTK는 100개 이상의 자연어 데이터셋과 다양한 코퍼스를 포함하고 있어, 실험 및 연구 목적으로 매우 유용합니다.

코퍼스 예시:
- brown (브라운 코퍼스)
- gutenberg (구텐베르크 프로젝트)
- wordnet (어휘 의미 네트워크)
- stopwords (불용어 리스트)
- names (영어 이름 리스트)

📌 예제: WordNet 사용

from nltk.corpus import wordnet

syns = wordnet.synsets("bank")
print(syns[0].definition())  # "Financial institution that accepts deposits"

2️⃣ 문장 및 단어 토큰화 (Tokenization)

NLTK는 다양한 토큰화 기법을 지원하여 문장을 세분화하는 데 강력한 기능을 제공합니다.

단어 토큰화 (word_tokenize)
문장 토큰화 (sent_tokenize)
n-그램 분석 (ngrams)

📌 예제: 문장 및 단어 토큰화

from nltk.tokenize import word_tokenize, sent_tokenize

text = "NLTK is powerful. It helps with NLP tasks."
print(sent_tokenize(text))  # ['NLTK is powerful.', 'It helps with NLP tasks.']
print(word_tokenize(text))  # ['NLTK', 'is', 'powerful', '.', 'It', 'helps', 'with', 'NLP', 'tasks', '.']

3️⃣ 강력한 형태소 분석 (Stemming & Lemmatization)

NLTK는 여러 종류의 어간 추출(Stemming) 및 표제어 추출(Lemmatization) 기능을 제공합니다.

📌 예제: 어간 추출 (PorterStemmer)

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("running"))  # "run"
print(stemmer.stem("flies"))    # "fli"

📌 예제: 표제어 추출 (WordNetLemmatizer)

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v"))  # "run"

✅ 차이점:

Stemming: 단순한 규칙 기반 변환 (정확도가 낮을 수 있음).
Lemmatization: 문맥을 고려한 변환 (더 정확함).

4️⃣ 품사 태깅 (Part-of-Speech Tagging)

NLTK는 단어의 **품사(POS, Part of Speech)**를 자동으로 태깅하는 기능을 제공합니다.

📌 예제: 품사 태깅 (pos_tag)

from nltk import pos_tag

tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens))

출력: [('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]

NNP (고유명사)
VBZ (현재형 동사)
VBG (현재분사)
NN (일반 명사)

5️⃣ 문장 유사도 분석 및 의미 분석

NLTK는 WordNet을 활용한 단어 유사도 및 의미 분석 기능을 제공합니다.

📌 예제: 두 단어 간 유사도 비교

from nltk.corpus import wordnet

word1 = wordnet.synset("car.n.01")
word2 = wordnet.synset("automobile.n.01")
print(word1.wup_similarity(word2))  # 1.0 (완전히 같은 의미)

6️⃣ 구문 분석 (Parsing)

NLTK는 문장의 문법 구조를 분석하는 기능을 제공하며, CFG(Context-Free Grammar) 기반 구문 분석을 지원합니다.

📌 예제: 간단한 문법 분석

python복사편집from nltk import CFG

grammar = CFG.fromstring("""
    S -> NP VP
    NP -> 'John' | 'Mary'
    VP -> 'eats' | 'runs'
""")
print(grammar)

7️⃣ 감정 분석 및 텍스트 분류

NLTK는 지도 학습과 비지도 학습을 위한 다양한 도구를 제공하며, 감정 분석과 텍스트 분류를 지원합니다.

📌 예제: 감정 분석용 단어 추출

from nltk.sentiment import SentimentIntensityAnalyzer

nltk.download('vader_lexicon')
sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores("I love this product!"))  # {'neg': 0.0, 'neu': 0.214, 'pos': 0.786, 'compound': 0.8316}

8️⃣ 영어 이외의 다국어 지원NLTK는 기본적으로 영어 중심이지만, 추가 리소스를 활용하면 한국어, 프랑스어, 독일어 등의 다양한 언어를 지원할 수 있습니다.

📌 예제: 한국어 형태소 분석 (KoNLPy 연동)

from konlpy.tag import Okt

okt = Okt()
print(okt.morphs("안녕하세요, 자연어 처리를 공부합니다!"))  # ['안녕하세요', ',', '자연어', '처리', '를', '공부', '합니다', '!']

NLTK는 한국어 분석 기능이 기본 내장되어 있지 않으므로 KoNLPy와 같은 외부 라이브러리를 함께 사용하는 것이 일반적입니다.

✅ NLTK만의 강점

특징	설명
방대한 코퍼스	Brown, WordNet, Stopwords 등 다양한 언어 데이터셋 제공
토큰화 및 구문 분석	단어, 문장 토큰화 및 CFG 기반 구문 분석 지원
형태소 분석	어간 추출(Stemming), 표제어 추출(Lemmatization) 제공
품사 태깅	`pos_tag()`로 문장 내 단어의 품사 분석
의미 분석	WordNet 기반 유사도 계산 및 개념 관계 분석
감정 분석	VADER Lexicon을 활용한 감정 분석 지원
다양한 언어 지원	KoNLPy 등 외부 라이브러리와 연동 가능

🚀 NLTK를 언제 사용해야 할까?

✅ 연구 및 교육용: NLP 개념을 학습하고 실험하는 데 최적
✅ 기본적인 NLP 처리: 토큰화, 품사 태깅, 문장 분석 등이 필요할 때
✅ 맞춤형 NLP 개발: 직접 알고리즘을 구축하고 싶을 때

❌ 실무 프로젝트에는 spaCy 또는 transformers(Hugging Face)처럼 더 빠르고 효율적인 라이브러리를 고려하는 것이 좋습니다.

📌 NLTK는 강력한 NLP 기능과 방대한 데이터셋을 제공하는 연구 및 학습용 라이브러리입니다. 하지만 실무에서는 속도가 느리므로, 특정 작업에는 spaCy, transformers, KoNLPy 등을 함께 활용하는 것이 좋습니다.

📌 NLTK vs spaCy

기능	NLTK	spaCy
속도	느림	빠름
문법 분석	강력한 품사 태깅, 구문 분석	더 정교한 품사 태깅 및 구문 분석
사용 용이성	다양하지만 설정 필요	직관적이고 빠름
딥러닝 지원	제한적	통합 지원

NLTK는 연구 및 학습용으로 유용하며, 다양한 NLP 기능을 직접 실험 가능.
spaCy는 속도가 빠르고 실무에서 머신러닝 모델과 함께 사용하기 적합.

📌 NLTK 설치

pip install nltk

설치 후, 필요한 리소스를 다운로드하려면 Python 인터프리터에서 실행:

import nltk
nltk.download('all')  # 전체 다운로드 (시간 오래 걸림)
nltk.download('punkt')  # 토큰화를 위한 패키지
nltk.download('stopwords')  # 불용어 리스트
nltk.download('wordnet')  # WordNet (어휘 관계)

📝 NLTK 주요 기능 실습

1️⃣ 토큰화 (Tokenization)

from nltk.tokenize import word_tokenize, sent_tokenize

text = "NLTK is a leading platform for building Python programs to work with human language data."
print(word_tokenize(text))  # 단어 기준 토큰화
print(sent_tokenize(text))  # 문장 기준 토큰화

2️⃣ 불용어 제거 (Stopwords Removal)

from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
words = word_tokenize("This is an example showing off stop word filtration.")
filtered_words = [w for w in words if w.lower() not in stop_words]
print(filtered_words)

3️⃣ 품사 태깅 (Part-of-Speech Tagging)

from nltk import pos_tag

tokens = word_tokenize("John is playing soccer.")
print(pos_tag(tokens))

출력 예시: [('John', 'NNP'), ('is', 'VBZ'), ('playing', 'VBG'), ('soccer', 'NN'), ('.', '.')]

4️⃣ 어간 추출 (Stemming)

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("running"))  # run
print(stemmer.stem("flies"))    # fli

5️⃣ 표제어 추출 (Lemmatization)

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos="v"))  # run
print(lemmatizer.lemmatize("flies", pos="n"))   # fly

6️⃣ n-그램 (N-grams)

from nltk.util import ngrams

text = word_tokenize("I love natural language processing.")
bigrams = list(ngrams(text, 2))
print(bigrams)

7️⃣ 문장 유사도 분석 (WordNet을 이용한 의미 분석)

from nltk.corpus import wordnet

syns = wordnet.synsets("computer")
print(syns[0].definition())  # 단어 정의
print(syns[0].examples())   # 예문

📌 정리

NLTK는 자연어 처리를 위한 강력한 라이브러리로 다양한 기능을 제공.
텍스트 토큰화, 불용어 제거, 품사 태깅, 어간 추출, 표제어 추출 등의 기능 활용 가능.
학습과 실험에 적합하지만, 실무에서는 속도가 빠른 spaCy가 더 많이 사용됨.

zerg96

Next 코사인 유사도 (Cosine Similarity) »

Previous « NLP (Natural Language Processing, 자연어 처리)

타입스크립트 (TypeScript)

1. 타입스크립트 개요 타입스크립트(TypeScript)는 마이크로소프트(Microsoft)가 개발한 자바스크립트(JavaScript)의 상위 집합(Superset) 언어입니다.즉, 자바스크립트에 정적 타입(Static Type)을 추가하고,…

7개월 ago

네트워크

노트북(윈도우)에서 아이폰 유선 테더링 하기

윈도우 운영체제의 노트북에서는 iPhone 유선 테더링이 잘 안되는 경우가 많습니다. 보통 iPhone의 드라이버가 설치가 안되있어서인…

8개월 ago

데이터베이스

오라클 래치(Latch)

오라클 데이터베이스의 성능을 논할 때, 내부적으로 발생하는 경합(Contention)은 피할 수 없는 주제다. 특히 다수의 프로세스가…

8개월 ago

이슈

사장님도 3표, 나도 3표? ‘3%룰’ 완전 정복!

안녕하세요, 혹시 이런 생각해 본 적 없으신가요? "내가 투자한 회사는 누가 감시하고, 어떻게 운영될까?" 오늘은…

9개월 ago

인공지능 및 빅데이터

Vector Store(벡터 스토어)

'벡터 스토어' 완벽 가이드: AI 시대, 데이터의 새로운 심장을 만나다 IT 업계는 인공지능(AI)이라는 거대한 패러다임의…

9개월 ago

인공지능 및 빅데이터

Gemini CLI (재미나이 CLI)

1. Gemini CLI란 무엇인가요? Gemini CLI는 터미널 환경에서 직접 Gemini 모델과 상호작용할 수 있도록 만들어진…

9개월 ago

NLTK (Natural Language Toolkit)

1️⃣ 방대한 언어 데이터셋 제공

2️⃣ 문장 및 단어 토큰화 (Tokenization)

3️⃣ 강력한 형태소 분석 (Stemming & Lemmatization)

4️⃣ 품사 태깅 (Part-of-Speech Tagging)

5️⃣ 문장 유사도 분석 및 의미 분석

6️⃣ 구문 분석 (Parsing)

7️⃣ 감정 분석 및 텍스트 분류

8️⃣ 영어 이외의 다국어 지원NLTK는 기본적으로 영어 중심이지만, 추가 리소스를 활용하면 한국어, 프랑스어, 독일어 등의 다양한 언어를 지원할 수 있습니다.

✅ NLTK만의 강점

🚀 NLTK를 언제 사용해야 할까?

📌 NLTK vs spaCy

📌 NLTK 설치

📝 NLTK 주요 기능 실습

1️⃣ 토큰화 (Tokenization)

2️⃣ 불용어 제거 (Stopwords Removal)

3️⃣ 품사 태깅 (Part-of-Speech Tagging)

4️⃣ 어간 추출 (Stemming)

5️⃣ 표제어 추출 (Lemmatization)

6️⃣ n-그램 (N-grams)

7️⃣ 문장 유사도 분석 (WordNet을 이용한 의미 분석)

Related Post

Recent Posts

타입스크립트 (TypeScript)

노트북(윈도우)에서 아이폰 유선 테더링 하기

오라클 래치(Latch)

사장님도 3표, 나도 3표? ‘3%룰’ 완전 정복!

Vector Store(벡터 스토어)

Gemini CLI (재미나이 CLI)