Python 自然语言处理入门：NLTK 库与文本情感分析实战

95次阅读

共计 8546 个字符，预计需要花费 22 分钟才能阅读完成。

在信息爆炸的时代，我们每天都被海量的文本数据所包围。如何从这些无序的文字中提取有价值的信息、理解人类语言的深层含义，甚至洞察其背后的情感，成为了一个日益重要的课题。这正是自然语言处理（NLP）的魅力所在。

作为人工智能领域的一个重要分支，自然语言处理（NLP）致力于让计算机理解、解释、生成和操作人类语言。而 Python，凭借其丰富的库和简洁的语法，无疑是开启 NLP 大门的最佳选择。今天，我们将聚焦于 Python NLP 的基石——NLTK 库，并通过一个引人入胜的实战案例：文本情感分析，带你领略 NLP 的奥秘。

想象一下，你能够让电脑阅读一篇文章，然后告诉你这篇文章的主题是什么，其中提到了哪些人名和地名，甚至这篇文章的作者是积极的、消极的还是中立的。这就是 NLP 的核心目标。

NLP 通过结合计算语言学、人工智能和计算机科学，让机器能够处理和理解人类语言。它涵盖了广泛的任务，例如：

文本分类： 将文本归类到预定义的类别，如垃圾邮件检测。
机器翻译： 将一种语言翻译成另一种语言。
信息抽取： 从非结构化文本中提取结构化信息。
问答系统： 理解问题并提供答案。
情感分析： 识别和提取文本中表达的情绪或观点。

Python 之所以成为 NLP 领域的首选语言，主要有以下几个原因：

丰富的库生态系统： 除了我们将深入探讨的 NLTK，还有 spaCy、TextBlob、Gensim、scikit-learn 以及 Hugging Face 的 Transformers 等众多强大的库，涵盖了从基础文本处理到深度学习 NLP 的各个层面。
易学易用： Python 简洁的语法和强大的社区支持，使得开发者能够快速上手并高效实现想法。
良好的集成性： Python 能够轻松与其他数据科学和机器学习工具集成，构建端到端的解决方案。

NLTK（Natural Language Toolkit）是 Python 中最全面、最受欢迎的 NLP 库之一，被誉为“自然语言处理的瑞士军刀”。它提供了大量用于文本处理、分类、标记化、词干提取、词形还原等任务的工具和语料库。对于 NLP 初学者来说，NLTK 无疑是最好的起点。

首先，你需要安装 NLTK 库：

pip install nltk

安装完成后，NLTK 还需要下载一些必要的语料库（如分词器、停用词列表、WordNet 等）才能正常工作。第一次使用时，通常会运行以下代码：

import nltk
# 下载分词器
nltk.download('punkt')
# 下载英文停用词列表
nltk.download('stopwords')
# 下载 WordNet，用于词形还原
nltk.download('wordnet')
# 下载 Open Multilingual Wordnet，WordNet 的补充
nltk.download('omw-1.4')
# 下载词性标注器
nltk.download('averaged_perceptron_tagger')
# 下载 VADER 情感词典，用于情感分析
nltk.download('vader_lexicon')

运行 nltk.download() 会弹出一个 GUI 界面，你可以选择下载所有或特定的语料库。为了本次情感分析实战，上述列出的语料库是必需的。

在进行任何复杂的 NLP 任务之前，对原始文本进行预处理是至关重要的一步。文本预处理的目标是将原始、非结构化的文本转换为机器可以理解和分析的格式。这通常包括以下几个步骤：

分词是将文本分解成更小的有意义单元（词语或句子）的过程。这些单元被称为“token”。

词语分词 (Word Tokenization)： 将文本分解成单个词语。
句子分词 (Sentence Tokenization)： 将文本分解成独立的句子。

from nltk.tokenize import word_tokenize, sent_tokenize

text = "Python is powerful and versatile. It's great for NLP! Let's learn NLTK."

# 句子分词
sentences = sent_tokenize(text)
print("句子分词结果:", sentences)

# 词语分词
words = word_tokenize(text)
print("词语分词结果:", words)

输出：

句子分词结果: ['Python is powerful and versatile.', "It's great for NLP!","Let's learn NLTK."]
词语分词结果: ['Python', 'is', 'powerful', 'and', 'versatile', '.', 'It', "'s", 'great', 'for', 'NLP', '!', 'Let', "'s", 'learn', 'NLTK', '.']

停用词（Stop Words）是语言中出现频率高但对文本含义贡献不大的词语，如“the”、“a”、“is”、“and”等。移除停用词可以减少数据维度，提高处理效率和模型性能。

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

text = "Python is powerful and versatile. It's great for NLP! Let's learn NLTK."
words = word_tokenize(text.lower()) # 转换为小写，便于匹配停用词

stop_words = set(stopwords.words('english')) # 获取英文停用词列表

# 移除停用词和非字母字符（如标点）filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
print("移除停用词后:", filtered_words)

输出：

移除停用词后: ['python', 'powerful', 'versatile', 'great', 'nlp', 'lets', 'learn', 'nltk']

词形还原和词干提取的目的都是将词语还原到其基本形式，以减少词语的变体，统一表示。

词干提取 (Stemming)： 是一种更粗糙的方法，通过移除词语的后缀来获取词干，不一定保证词干是有效的词。例如，”running” -> “run”, “runs” -> “run”。
词形还原 (Lemmatization)： 是一种更复杂且更精确的方法，它使用词汇知识（如 WordNet）来将词语还原到其字典形式（lemma），并且这个基本形式通常是一个有效的词。例如，”better” -> “good”, “am” -> “be”。

在大多数情况下，词形还原效果优于词干提取，因为它保留了词语的语义。

from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet

# 词干提取器
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in filtered_words]
print("词干提取后:", stemmed_words)

# 词形还原器
lemmatizer = WordNetLemmatizer()

# 辅助函数：将 NLTK 词性标签映射到 WordNet 词性标签
def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ, "N": wordnet.NOUN, "V": wordnet.VERB, "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN) # 默认返回名词

# 词形还原 (带词性标注)
lemmatized_words_pos = [lemmatizer.lemmatize(word, get_wordnet_pos(word)) for word in filtered_words]
print("带词性标注的词形还原:", lemmatized_words_pos)

输出示例：

词干提取后: ['python', 'power', 'versatil', 'great', 'nlp', 'let', 'learn', 'nltk']
带词性标注的词形还原: ['python', 'powerful', 'versatile', 'great', 'nlp', 'let', 'learn', 'nltk']

通过词性标注辅助词形还原，可以得到更准确的词语基本形式。

情感分析（Sentiment Analysis），又称意见挖掘（Opinion Mining），是 NLP 中最受欢迎的应用之一。它的目标是自动识别和提取文本中所表达的情绪或观点，通常将其分为积极（Positive）、消极（Negative）或中立（Neutral）。

情感分析在商业、政治、社会媒体监控等领域有着广泛的应用，例如：

客户反馈分析： 了解客户对产品或服务的感受。
社交媒体监听： 监控品牌声誉和公众舆论。
市场研究： 评估市场对新产品或事件的反应。

NLTK 提供了一个非常方便且强大的情感分析工具——VADER (Valence Aware Dictionary and sEntiment Reasoner)。VADER 是一个基于词典和规则的情感分析工具，它特别适用于分析社交媒体文本，因为它考虑了感叹号、表情符号、大写字母、俚语等对情感的影响。

首先，我们需要导入SentimentIntensityAnalyzer：

from nltk.sentiment.vader import SentimentIntensityAnalyzer

然后，创建一个分析器实例并使用 polarity_scores() 方法来获取文本的情感分数：

analyzer = SentimentIntensityAnalyzer()

# 示例文本
sentences = [
    "This product is absolutely amazing! I love it.",       # 积极
    "I'm so disappointed with the service, it was terrible.", # 消极"The weather today is neutral.",                        # 中立"The food was good, but the service was disappointing.",# 混合"I hate this, but I love that."                         # 复杂情感
]

for sentence in sentences:
    vs = analyzer.polarity_scores(sentence)
    print(f"文本: {sentence}")
    print(f"情感分数: {vs}")
    print("-" * 40)

输出示例：

文本: This product is absolutely amazing! I love it.
情感分数: {'neg': 0.0, 'neu': 0.285, 'pos': 0.715, 'compound': 0.9022}
----------------------------------------
文本: I'm so disappointed with the service, it was terrible.
情感分数: {'neg': 0.655, 'neu': 0.345, 'pos': 0.0, 'compound': -0.8316}
----------------------------------------
文本: The weather today is neutral.
情感分数: {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
----------------------------------------
文本: The food was good, but the service was disappointing.
情感分数: {'neg': 0.45, 'neu': 0.55, 'pos': 0.0, 'compound': -0.5994}
----------------------------------------
文本: I hate this, but I love that.
情感分数: {'neg': 0.366, 'neu': 0.264, 'pos': 0.37, 'compound': 0.007}
----------------------------------------

polarity_scores()方法返回一个字典，其中包含四个分数：

neg (Negative)： 文本中负面情绪的比例。
neu (Neutral)： 文本中中性情绪的比例。
pos (Positive)： 文本中正面情绪的比例。
compound (Compound)： 综合得分。这是一个归一化（- 1 到 + 1 之间）的复合得分，表示文本的整体情感强度。接近 + 1 表示非常积极，接近 - 1 表示非常消极，接近 0 表示中性。

通常，我们会使用 compound 分数来判断文本的整体情感：

compound >= 0.05：积极
compound <= -0.05：消极
-0.05 < compound < 0.05：中性

让我们把所学的知识结合起来，构建一个能够对用户输入的文本进行情感分析的简单应用。

import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from nltk.corpus import stopwords, wordnet
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# 辅助函数：将 NLTK 词性标签映射到 WordNet 词性标签
def get_wordnet_pos(word):
    """Map NLTK POS tag to WordNet POS tag for lemmatization"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ, "N": wordnet.NOUN, "V": wordnet.VERB, "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN) # 默认返回名词

# 初始化情感分析器、词形还原器和停用词列表
analyzer = SentimentIntensityAnalyzer()
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    """对文本进行预处理：小写化 -> 分词 -> 移除停用词 -> 词形还原"""
    # 1. 小写化
    text = text.lower()
    # 2. 分词
    words = word_tokenize(text)
    # 3. 移除停用词和非字母字符
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    # 4. 词形还原 (带词性标注)
    lemmatized_words = [lemmatizer.lemmatize(word, get_wordnet_pos(word)) for word in filtered_words]

    return " ".join(lemmatized_words) # 将处理后的词语重新组合成字符串

def analyze_sentiment(text):
    """分析文本情感并返回结果"""
    processed_text = preprocess_text(text)
    if not processed_text.strip(): # 如果预处理后为空，则认为中性
        return "中性", {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}

    vs = analyzer.polarity_scores(processed_text)
    compound_score = vs['compound']

    if compound_score >= 0.05:
        sentiment = "积极"
    elif compound_score <= -0.05:
        sentiment = "消极"
    else:
        sentiment = "中性"

    return sentiment, vs

# --- 应用入口 ---
if __name__ == "__main__":
    # 检查并下载 NLTK 数据（如果尚未下载）try:
        nltk.data.find('corpora/vader_lexicon.zip')
        nltk.data.find('tokenizers/punkt')
        nltk.data.find('corpora/stopwords')
        nltk.data.find('corpora/wordnet')
        nltk.data.find('corpora/omw-1.4')
        nltk.data.find('taggers/averaged_perceptron_tagger')
    except nltk.downloader.DownloadError:
        print("NLTK 数据未下载，正在尝试下载...")
        nltk.download('vader_lexicon')
        nltk.download('punkt')
        nltk.download('stopwords')
        nltk.download('wordnet')
        nltk.download('omw-1.4')
        nltk.download('averaged_perceptron_tagger')
        print("NLTK 数据下载完成。")

    print("欢迎使用情感分析工具！输入' 退出 '结束程序。")
    while True:
        user_input = input("n 请输入您想分析的文本:")
        if user_input.lower() == '退出':
            break

        sentiment_label, scores = analyze_sentiment(user_input)
        print(f"n 原始文本: {user_input}")
        # print(f"预处理文本: {preprocess_text(user_input)}") # 可以取消注释查看预处理结果
        print(f"情感分析结果: {sentiment_label}")
        print(f"详细分数: {scores}")

这段代码整合了文本预处理和 VADER 情感分析，提供了一个用户友好的命令行界面。用户可以输入任何文本，程序将输出其情感类别和详细分数。这个例子展示了 NLTK 的强大功能以及如何将其应用于实际问题。

NLTK 是一个出色的入门工具，但 NLP 的世界远不止于此。随着你对 NLP 的理解加深，你可能会想探索其他更高级的库和技术：

spaCy： 一个为生产环境设计的高性能 NLP 库，提供预训练模型、命名实体识别、依存句法分析等。
scikit-learn： 虽然不是专门的 NLP 库，但其强大的机器学习算法可以用于文本分类、聚类等 NLP 任务。
Gensim： 专注于主题建模和向量空间模型，如 Word2Vec、Doc2Vec 等。
Hugging Face Transformers： 现代深度学习 NLP 的代表，提供了 Transformer 模型（BERT, GPT 等）的实现，推动了 NLP 领域的革命。

更高级的 NLP 任务包括：

命名实体识别 (NER)： 识别文本中的人名、地名、组织名等实体。
主题建模 (Topic Modeling)： 从大量文本中发现抽象主题。
文本摘要 (Text Summarization)： 自动生成文本的简短摘要。
问答系统 (Question Answering Systems)： 回答用户提出的问题。

至此，我们已经完成了 Python 自然语言处理的入门之旅。我们学习了 NLP 的基础概念，掌握了 NLTK 库的安装与核心文本预处理技术（分词、停用词移除、词干提取与词形还原），并通过 NLTK 的 VADER 工具成功实现了文本情感分析。最后，我们还构建了一个简单的情感分析应用，并将目光投向了 NLTK 之外更广阔的 NLP 世界。

自然语言处理是一个充满活力和挑战的领域，它正在深刻地改变我们与信息交互的方式。希望这篇入门文章能激发你对 NLP 的兴趣，鼓励你继续探索这个迷人的领域。动手实践是最好的学习方式，现在就开始你的第一个 NLP 项目吧！

正文完

发表至： Python

2025-12-02

0

Python基础入门 Day56：FastAPI 中的异常处理与全局错误响应机制

Python `collections` 模块：告别繁琐字典操作，让数据统计更高效

Python基础入门 Day133 异步爬虫监控运维：指标体系、告警机制与长期运行保障

Python基础入门 Day60：使用 SQLModel 实现联合查询与分页查询

Python基础入门 Day119 异步 I/O 实战：使用 aiohttp 进行高并发网络请求

Python 自然语言处理入门：NLTK 库与文本情感分析实战

开启文本世界的智慧之门：Python 自然语言处理入门

什么是自然语言处理 (NLP)？

为什么选择 Python 进行 NLP？

NLTK：自然语言处理的瑞士军刀

安装与准备

文本预处理：NLP 的基石

1. 分词 (Tokenization)

2. 停用词移除 (Stop Words Removal)

3. 词形还原 (Lemmatization) 与词干提取 (Stemming)

文本情感分析实战：利用 NLTK VADER

使用 VADER 进行情感分析

理解 VADER 的情感分数

构建一个简单的情感分析应用

NLTK 之外：NLP 的未来之路

总结

Playwright page.goto(url) 详解：深入解析网页导航的最佳实践

如何在安卓 Termux 上安装 qBittorrent

深度解析：基于 PyTorch 实现图像分类——从数据集构建到模型训练部署全攻略

Python 基础入门 Day30

如何使用Python实现高效的数据筛选和处理：一步步带你掌握列表解析与生成器

如何在Mac上高效使用Terminal：5个实用命令

如何用 Python 批量重命名文件：一步一步的教程

如何用Python爬虫自动化下载网页数据：从入门到精通

Mac 文件管理技巧：如何利用 Spotlight 快速查找文件

Python 性能优化：提升代码执行效率的五个技巧

Python 自然语言处理入门：NLTK 库与文本情感分析实战

开启文本世界的智慧之门：Python 自然语言处理入门

什么是自然语言处理 (NLP)？

为什么选择 Python 进行 NLP？

NLTK：自然语言处理的瑞士军刀

安装与准备

文本预处理：NLP 的基石

1. 分词 (Tokenization)

2. 停用词移除 (Stop Words Removal)

3. 词形还原 (Lemmatization) 与 词干提取 (Stemming)

文本情感分析实战：利用 NLTK VADER

使用 VADER 进行情感分析

理解 VADER 的情感分数

构建一个简单的情感分析应用

NLTK 之外：NLP 的未来之路

总结

3. 词形还原 (Lemmatization) 与词干提取 (Stemming)