Python机器学习入门：Scikit-learn核心算法实战——分类与回归轻松掌握

5次阅读

共计 6584 个字符，预计需要花费 17 分钟才能阅读完成。

在当今数据驱动的世界里，机器学习 (Machine Learning, ML) 已不再是遥不可及的科幻概念，而是各行各业解决复杂问题的强大工具。从智能推荐系统到自动驾驶，从疾病诊断到金融风控，机器学习无处不在，深刻改变着我们的生活和工作方式。而 Python，凭借其简洁的语法、丰富的库生态和强大的社区支持，无疑成为了机器学习领域最受欢迎的编程语言。

对于初学者而言，Python 的机器学习世界可能看起来广阔而复杂，但幸运的是，我们有 Scikit-learn 这个强大的盟友。Scikit-learn 是一个免费的机器学习库，它为数据挖掘和数据分析提供了简单而高效的工具。它建立在 NumPy、SciPy 和 Matplotlib 之上，为各种监督和无监督学习算法提供了一致的接口。本文旨在为希望通过 Python 入门机器学习的你，深入浅出地介绍 Scikit-learn 的核心功能，并通过分类和回归这两个最基本的监督学习任务，带你进行实战演练，让你轻松掌握 Scikit-learn 的精髓。

Scikit-learn (通常简称为 sklearn) 是 Python 中最流行、功能最全面的机器学习库之一。它的设计理念是提供一个统一且易于使用的 API，让用户能够快速上手并有效地实现机器学习算法。

为什么 Scikit-learn 如此受欢迎？

简单易用 ：所有模型都遵循相同的fit()、predict()、transform() 接口，极大地降低了学习成本。
功能全面：涵盖了分类、回归、聚类、降维、模型选择和预处理等几乎所有主流的机器学习任务。
性能高效：底层实现使用 NumPy 和 SciPy 进行了优化，对于中等规模的数据集表现出色。
文档完善：拥有详细的官方文档和丰富的示例，方便用户查阅和学习。
活跃社区：庞大的用户社区意味着你总能找到帮助和资源。

Scikit-learn 是机器学习新手快速入门并构建实用模型的理想选择。它让复杂的算法变得触手可及，让你可以更专注于数据和问题本身，而不是算法的底层实现细节。

在深入 Scikit-learn 实战之前，我们有必要快速回顾一下机器学习中最核心的概念之一：监督学习。

监督学习是机器学习的一个分支，其核心思想是让模型从“有标签”的数据中学习。这意味着我们的训练数据不仅包含输入特征（X），还包含对应的正确输出（y）。模型的目标是学习从 X 到 y 的映射关系，以便在面对新的、未见过的数据时，能够准确地预测其输出。

监督学习主要分为两大类任务：

分类 (Classification)：当目标变量是离散的、有限的类别时，我们进行分类任务。例如，判断一封邮件是“垃圾邮件”还是“非垃圾邮件”，识别一张图片是“猫”还是“狗”，或者预测客户是否会“流失”。分类模型的输出是一个类别标签。
回归 (Regression)：当目标变量是连续的数值时，我们进行回归任务。例如，预测一套房子的价格，预估明天的气温，或者预测股票的走势。回归模型的输出是一个具体的数值。

无论分类还是回归，数据预处理都是基石。这包括特征工程（选择、创建和转换特征）、数据清洗（处理缺失值、异常值）以及最关键的——将数据集划分为 训练集 (training set) 和 测试集 (test set)。训练集用于训练模型，而测试集则用于评估模型在新数据上的泛化能力，确保模型不是简单地“记住”了训练数据（过拟合）。

现在，让我们通过 Scikit-learn 来实战分类任务。我们将以经典的鸢尾花 (Iris) 数据集为例，学习如何使用不同的分类算法来区分不同种类的鸢尾花。

分类问题旨在预测数据点所属的离散类别。例如，根据患者的症状判断其是否患有某种疾病（是 / 否），根据银行交易信息判断是否为欺诈（欺诈 / 非欺诈），或者识别手写数字（0-9）。

Scikit-learn 提供了丰富的分类算法，我们来了解几种最常用且强大的：

逻辑回归 (Logistic Regression)：尽管名字中带有“回归”，但它是一种广泛用于二元分类的线性模型。它通过 Sigmoid 函数将线性回归的输出映射到 0 到 1 之间，表示属于某一类别的概率。
决策树 (Decision Tree)：一种直观的树形结构模型，通过一系列简单的“是 / 否”问题来对数据进行分类。易于理解和解释。
随机森林 (Random Forest)：决策树的集成学习版本。它通过构建多棵决策树并将它们的预测结果进行平均（投票）来提高模型的准确性和稳定性，有效克服了单棵决策树容易过拟合的问题。
支持向量机 (Support Vector Machine, SVM)：旨在找到一个最优的超平面，将不同类别的数据点最大化地分隔开来。在高维空间中表现出色，尤其适合处理中小型复杂数据集。
K 近邻 (K-Nearest Neighbors, KNN)：一种懒惰学习算法，通过计算待分类样本与训练集中所有样本的距离，并找出最近的 K 个邻居，然后根据这 K 个邻居的类别进行投票来决定新样本的类别。

我们将使用 Scikit-learn 加载鸢尾花数据集，并使用逻辑回归进行分类。

# 导入所需的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import warnings

# 忽略收敛警告，实际项目中应根据警告调整参数
warnings.filterwarnings('ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=UserWarning)

print("--- 分类实战：鸢尾花分类 ---")

# 1. 加载数据集
# 鸢尾花数据集包含四种特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）# 和三种鸢尾花类别（Setosa, Versicolor, Virginica）。iris = load_iris()
X, y = iris.data, iris.target # X 是特征，y 是目标变量（类别）# 2. 划分训练集和测试集
# test_size=0.2 表示 20% 的数据用于测试，random_state 确保每次划分结果一致
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"训练集大小: {X_train.shape[0]} 样本")
print(f"测试集大小: {X_test.shape[0]} 样本")

# 3. 初始化并训练模型
# 这里我们选择逻辑回归模型
model = LogisticRegression(max_iter=200, solver='liblinear') # 增加 max_iter 避免收敛警告，solver 指定优化算法
model.fit(X_train, y_train) # 使用训练数据训练模型

# 4. 进行预测
y_pred = model.predict(X_test) # 使用训练好的模型对测试集进行预测

# 5. 模型评估
# accuracy_score 计算预测正确的样本比例
accuracy = accuracy_score(y_test, y_pred)
# classification_report 提供更详细的分类指标，包括精确率、召回率、F1 分数
report = classification_report(y_test, y_pred, target_names=iris.target_names)

print("n--- 模型评估结果 ---")
print(f"模型准确率: {accuracy:.4f}")
print("分类报告:n", report)

分类评估指标：

准确率 (Accuracy)：所有预测正确的样本占总样本的比例，是最直观的指标。
精确率 (Precision)：对于某一类别，模型预测为该类别的样本中，有多少是真正属于该类别的。高精确率意味着较少的假阳性。
召回率 (Recall)：对于某一类别，所有真正属于该类别的样本中，有多少被模型正确地预测出来了。高召回率意味着较少的假阴性。
F1 分数 (F1-Score)：精确率和召回率的调和平均值，综合衡量模型的性能。
混淆矩阵 (Confusion Matrix)：更详细地展示了模型的分类结果，包括真阳性、假阳性、真阴性、假阴性。

接下来，我们将使用 Scikit-learn 来解决回归问题。我们将使用 Scikit-learn 生成一个简单的线性回归数据集，并使用线性回归模型进行预测。

回归问题旨在预测一个连续的数值。例如，预测房屋面积、卧室数量、地理位置等特征下的房价，根据历史销售数据预测未来的销售额，或者根据车辆的参数预测其油耗。

Scikit-learn 同样提供了丰富的回归算法：

线性回归 (Linear Regression)：最基础的回归模型，试图找到一条最佳拟合的直线（或超平面），以最小化预测值与实际值之间的平方误差。
多项式回归 (Polynomial Regression)：当数据点之间存在非线性关系时，线性回归无法很好地拟合。多项式回归通过将特征转换为多项式特征，然后应用线性回归来拟合非线性关系。
决策树回归 (Decision Tree Regressor)：决策树同样可以用于回归任务。它通过一系列的分裂规则，将数据集分成若干个叶子节点，每个叶子节点输出一个预测值（通常是该节点内所有样本目标值的平均值）。
随机森林回归 (Random Forest Regressor)：同样是决策树的集成版本，通过构建多棵决策树回归器并取其平均预测值，显著提升模型的稳定性和准确性，减少过拟合。

我们将使用 Scikit-learn 生成一个简单的线性回归数据集，并用线性回归模型进行预测。

# 导入所需的库
from sklearn.datasets import make_regression # 用于生成模拟回归数据
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

print("n--- 回归实战：模拟线性回归 ---")

# 1. 生成模拟回归数据
# n_samples: 样本数量
# n_features: 特征数量
# noise: 数据中的噪声，使数据不完全线性
# random_state: 确保每次生成数据一致
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

# Scikit-learn 的回归模型通常期望 X 是二维数组，即使只有一个特征
X = X.reshape(-1, 1)

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"训练集大小: {X_train.shape[0]} 样本")
print(f"测试集大小: {X_test.shape[0]} 样本")

# 3. 初始化并训练模型
model = LinearRegression() # 选择线性回归模型
model.fit(X_train, y_train) # 使用训练数据训练模型

# 4. 进行预测
y_pred = model.predict(X_test) # 使用训练好的模型对测试集进行预测

# 5. 模型评估
# mean_squared_error (MSE): 均方误差，预测值与真实值差的平方的平均值，越小越好
mse = mean_squared_error(y_test, y_pred)
# r2_score (R-squared): 决定系数，衡量模型解释因变量变异的比例，越接近 1 越好
r2 = r2_score(y_test, y_pred)

print("n--- 模型评估结果 ---")
print(f"均方误差 (MSE): {mse:.4f}")
print(f"R 方 (R-squared): {r2:.4f}")

# 可以打印模型的系数和截距
print(f"模型系数 (Coefficient): {model.coef_[0]:.4f}")
print(f"模型截距 (Intercept): {model.intercept_:.4f}")

回归评估指标：

均方误差 (Mean Squared Error, MSE)：预测值与真实值之差的平方的平均值。它对较大的误差给予更高的惩罚。值越小，模型性能越好。
均方根误差 (Root Mean Squared Error, RMSE)：MSE 的平方根，与目标变量的单位相同，更容易解释。
平均绝对误差 (Mean Absolute Error, MAE)：预测值与真实值之差的绝对值的平均值。它对所有误差给予同等的惩罚。
R 方 (R-squared / 决定系数)：衡量模型解释因变量变异的比例。R 方值介于 0 到 1 之间，越接近 1 表示模型拟合得越好。

掌握了 Scikit-learn 的基础用法后，你还可以探索更多高级功能，以进一步优化你的机器学习模型：

特征工程 (Feature Engineering)：这是机器学习中最重要但也最具挑战性的环节。通过创建、选择、转换特征，可以显著提升模型性能。Scikit-learn 提供了 PolynomialFeatures、StandardScaler 等工具来辅助特征处理。
数据标准化 / 归一化 (Feature Scaling)：许多机器学习算法（如 SVM、KNN、线性回归）对特征的尺度很敏感。StandardScaler（标准化，使数据均值为 0，方差为 1）和MinMaxScaler（归一化，将数据缩放到 0 - 1 范围）是常用的工具。
超参数调优 (Hyperparameter Tuning)：模型的性能很大程度上取决于其超参数（在训练前设定的参数）。Scikit-learn 的 GridSearchCV 和 RandomizedSearchCV 可以帮助你系统地搜索最佳超参数组合。
交叉验证 (Cross-Validation)：为了更可靠地评估模型的泛化能力，避免过拟合，K 折交叉验证（KFold）是标准做法。它将数据集分成 K 个子集，轮流用 K - 1 个子集训练模型，用剩下的一个子集进行验证。
Pipeline (管道)：Scikit-learn 的 Pipeline 工具允许你将数据预处理步骤和模型训练步骤串联起来，形成一个统一的工作流。这使得代码更加简洁、模块化，并有助于避免数据泄露。