Python 数据分析实战：深入Pandas多表合并与复杂数据清洗核心技巧

111次阅读

共计 4951 个字符，预计需要花费 13 分钟才能阅读完成。

在当今数据驱动的世界中，数据已成为企业决策和创新的核心。然而，现实世界中的数据往往是分散的、不完整的、不一致的，就像未经雕琢的璞玉，需要经过精心的打磨才能绽放出价值。对于数据分析师和数据科学家而言，能够高效地整合来自不同源的数据并对其进行彻底清洗，是开展任何有意义分析的基础。

Python 的 Pandas 库正是应对这一挑战的利器。它提供了强大而灵活的工具，让多表合并变得简单，让复杂的数据清洗工作变得有迹可循。本文将深入探讨 Pandas 在多表合并和复杂数据清洗方面的核心技巧，帮助你将混乱的原始数据转化为洞察力十足的分析基石。

在实际业务场景中，数据往往不会整齐地存储在一个文件中。客户信息可能在一个数据库，订单详情在另一个，产品目录又在别处。要进行全面分析，我们必须将这些散落的数据源拼接起来。Pandas 提供了 merge()、concat() 和 join() 等函数，以满足不同的数据整合需求。

1. `pd.merge()`：关系型数据合并的瑞士军刀

pd.merge() 是 Pandas 中最常用且功能强大的合并函数，它模拟了数据库中的 JOIN 操作，可以根据一个或多个键将两个 DataFrame 连接起来。

核心参数解析：

left, right: 需要合并的两个 DataFrame。
on: 用作合并键的列名或列名列表。如果左右 DataFrame 中键列名相同，可以直接使用 on。
left_on, right_on: 当左右 DataFrame 中的键列名不同时，分别指定各自的键列名。
how: 定义合并类型，这是 merge() 的灵魂所在。
- inner (内连接): 默认值。只保留两个 DataFrame 中键值都存在的行。可以想象成两个集合的交集。
- left (左连接): 保留左侧 DataFrame 的所有行，并根据键匹配右侧 DataFrame 的行。如果右侧没有匹配项，则填充 NaN。
- right (右连接): 保留右侧 DataFrame 的所有行，并根据键匹配左侧 DataFrame 的行。如果左侧没有匹配项，则填充 NaN。
- outer (外连接): 保留两个 DataFrame 中的所有行。如果某个键在一方不存在，则在对应的列中填充 NaN。可以想象成两个集合的并集。
suffixes: 当左右 DataFrame 中存在相同但非合并键的列名时，merge 会自动添加 _x 和 _y 后缀以区分。suffixes 参数允许你自定义这些后缀，提高可读性。

应用场景：

假设我们有两个 DataFrame，一个包含用户 ID 和用户名，另一个包含用户 ID 和订单金额。要分析每个用户的总订单额，就需要通过用户 ID 将它们内连接起来。或者，如果你想查看所有用户（包括没有下过订单的用户）的信息，就可以使用左连接。

2. `pd.concat()`：堆叠数据的利器

pd.concat() 主要用于在轴向上堆叠或拼接 DataFrame。它更像是数据框的简单叠加，而不是基于键的合并。

核心参数解析：

objs: 一个 DataFrame 列表，表示要拼接的对象。
axis: 指定拼接方向。
- axis=0 (默认): 按行堆叠（纵向拼接），增加行数。要求列名一致或可映射。
- axis=1: 按列拼接（横向拼接），增加列数。要求索引一致。
join: 当轴向上无法完全匹配时（例如 axis=0 时列名不完全一致，或 axis=1 时索引不完全一致），决定如何处理。
- outer (默认): 保留所有列 / 索引，不匹配的地方用 NaN 填充。
- inner: 只保留所有 DataFrame 都共有的列 / 索引。
ignore_index: 如果设为 True，将重置结果 DataFrame 的索引。在按行堆叠时非常有用，可以避免重复索引。

应用场景：

当你每月获取一份独立的销售报告，它们的结构相同（相同的列），只是数据内容不同，这时就可以使用 pd.concat(..., axis=0) 将它们堆叠成一个大的年度报告。如果想将两个具有相同索引但不同列的 DataFrame（例如，一个包含用户基本信息，一个包含用户行为统计）横向合并，可以使用 pd.concat(..., axis=1)。

3. `DataFrame.join()`：索引合并的简洁方式

DataFrame.join() 方法是 pd.merge() 在特定场景下的简化版本，它默认基于 DataFrame 的索引进行合并。

核心参数解析：

other: 要连接的另一个 DataFrame。
on:（可选）左侧 DataFrame 中用于连接的列名。如果未指定，则默认为左侧 DataFrame 的索引。
how: 与 pd.merge() 类似，支持 left, right, inner, outer。

应用场景：

当你的两个 DataFrame 都以一个共同的唯一标识符作为索引时，join() 方法会比 merge() 更简洁。例如，一个 DataFrame 的索引是产品 ID，另一个也是产品 ID，你可以直接使用 df1.join(df2) 来将它们连接起来。

“数据清洗占据了数据分析 80% 的时间”这句话绝非空穴来风。原始数据往往充斥着缺失值、重复项、格式不一致、异常值等问题。Pandas 提供了一系列强大的工具来识别、处理并修复这些问题。

1. 处理缺失值 (`NaN`)

缺失值是数据集中最常见的问题之一。

识别缺失值 :
- df.isnull() / df.isna(): 返回一个布尔型 DataFrame，指示每个元素是否为 NaN。
- df.isnull().sum(): 统计每列的缺失值数量。
- df.info(): 提供 DataFrame 的摘要信息，包括非空值的数量，可以间接看出缺失值。
删除缺失值 :
- df.dropna(axis=0, how='any', thresh=None):
  - axis=0 (默认): 删除包含缺失值的行。
  - axis=1: 删除包含缺失值的列。
  - how='any' (默认): 只要行 / 列中有一个 NaN 就删除。
  - how='all': 只有当行 / 列中所有值都是 NaN 时才删除。
  - thresh=N: 要求行 / 列至少有 N 个非 NaN 值才保留。
填充缺失值 : 比删除更常用的策略，因为它保留了更多数据。
- df.fillna(value):
  - value: 用一个固定值（如 0、平均值、中位数、众数）填充。
  - df['column'].fillna(df['column'].mean()): 用列的平均值填充。
  - method='ffill' (forward fill): 用前一个非缺失值填充。
  - method='bfill' (backward fill): 用后一个非缺失值填充。
  - df.interpolate(): 根据周围的有效值进行插值填充，尤其适用于时间序列数据。

重复数据会导致统计偏差和分析错误。

识别重复值 :
- df.duplicated(subset=None, keep='first'): 返回一个布尔型 Series，标记哪些行是重复的。
  - subset: 指定要检查重复值的列名或列名列表。
  - keep='first' (默认): 标记除第一次出现外的所有重复项。
  - keep='last': 标记除最后一次出现外的所有重复项。
  - keep=False: 标记所有重复项。
删除重复值 :
- df.drop_duplicates(subset=None, keep='first', inplace=False): 删除重复的行。参数与 duplicated() 类似。inplace=True 会直接修改 DataFrame。

正确的数据类型是高效存储和准确计算的基础。

df.astype(dtype): 将列转换为指定的数据类型。
- 例如：df['column'].astype('int'), df['column'].astype('float'), df['column'].astype('datetime64')。
pd.to_numeric(series, errors='coerce'): 将 Series 转换为数值类型。errors='coerce' 是关键，它会将无法转换的值设为 NaN，而不是引发错误。
pd.to_datetime(series, errors='coerce'): 将 Series 转换为日期时间类型。同样，errors='coerce' 非常有用。

文本数据往往是最混乱的，需要大量的处理。

.str 访问器 : Pandas Series 提供了 .str 访问器，可以对字符串列中的每个元素应用各种字符串方法。
- df['text'].str.strip(): 移除字符串两端的空白字符。
- df['text'].str.lower() / str.upper(): 转换为小写 / 大写。
- df['text'].str.replace('old', 'new'): 替换字符串。
- df['text'].str.contains('pattern'): 检查是否包含某个模式（支持正则表达式）。
- df['text'].str.split(','): 按分隔符拆分字符串。
- df['text'].str.extract(r'(d+)'): 使用正则表达式提取匹配的组。

异常值（Outliers）是数据集中与大多数数据点显著不同的值，可能由测量错误或真实但罕见的事件造成。

识别异常值 :
- 统计方法 : Z-score (标准分数), IQR (四分位距) 方法。
- 可视化 : 箱线图 (Box plot)、散点图 (Scatter plot)。
处理策略 :
- 删除 : 简单粗暴，但可能损失信息，需谨慎。
- 替换 / 修正 : 将异常值替换为均值、中位数或某个阈值（例如使用 df.clip() 方法将超出范围的值裁剪到指定边界）。
- 变换 : 对数据进行对数或平方根变换，以减少异常值的影响。

确保数据在不同记录之间具有统一的表示形式。

映射 (map(), replace()):
- df['country'].replace({'US': 'USA', 'UK': 'United Kingdom'}, inplace=True): 替换特定值。
- mapping = {'A': 1, 'B': 2}: df['grade'].map(mapping): 根据字典进行映射。
使用 apply() 函数 : 当需要对 DataFrame 的行或列应用更复杂的自定义函数时，apply() 是一个强大的工具。
- df['new_col'] = df.apply(lambda row: custom_function(row['col1'], row['col2']), axis=1)

深入理解数据 (EDA)：在开始任何合并和清洗之前，花时间通过 df.head(), df.info(), df.describe(), 直方图、箱线图等工具探索数据。理解每列的含义、数据类型、潜在问题。
制定清晰的计划 ：根据数据源和分析目标，提前规划好合并的顺序、合并键、清洗的步骤和策略。
逐步处理，验证中间结果 ：不要一次性编写大量代码。每完成一个合并或清洗步骤后，检查结果 DataFrame 的形状、数据类型、缺失值等，确保操作符合预期。
备份原始数据 ：始终保留一份原始数据的副本，以便在出现错误时能够回溯。
模块化代码 ：将复杂的清洗逻辑封装成函数，提高代码的可读性和复用性。
文档化决策 ：记录你在数据清洗过程中做出的重要决策，例如为什么选择删除某些行而不是填充缺失值，或者如何处理特定类型的异常值。
版本控制 ：使用 Git 等工具管理你的数据处理脚本，便于追踪修改历史和团队协作。

Pandas 库是 Python 数据分析生态系统中的基石，其多表合并和复杂数据清洗功能是数据专业人士必备的核心技能。通过掌握 merge() 和 concat() 等数据整合技巧，你可以将分散的数据源有效地连接起来，构建起全面而富有洞察力的数据视图。同时，运用处理缺失值、重复值、数据类型转换、字符串清洗和异常值等策略，你能够将杂乱无章的原始数据打磨成高质量、可信赖的分析基础。

数据清洗和整合并非一劳永逸的工作，它是一个迭代的过程，需要细致的观察、严谨的逻辑和不断实践。随着你对 Pandas 的深入理解和实战经验的积累，你将能够更自信、更高效地驾驭各种复杂的数据挑战，从“数据泥潭”中解脱，真正释放数据的潜能。现在，是时候拿起你的键盘，将这些技巧付诸实践了！

正文完

发表至： Python

2026-01-06

0

Python基础入门 Day134 异步爬虫架构总结：高并发系统设计能力的迁移与升华

Python爬虫进阶：requests与BeautifulSoup高效实践及避坑宝典

Python 基础入门 Day30

从零开始：爬虫入门与实践全攻略

驾驭Python数据结构与算法：链表、栈、队列与高效排序算法实现

Python 数据分析实战：深入Pandas多表合并与复杂数据清洗核心技巧

数据整合的艺术：Pandas 多表合并技巧

1. `pd.merge()`：关系型数据合并的瑞士军刀

2. `pd.concat()`：堆叠数据的利器

3. `DataFrame.join()`：索引合并的简洁方式

告别脏数据：Pandas 复杂数据清洗策略

1. 处理缺失值 (`NaN`)

2. 处理重复值

3. 数据类型转换

4. 字符串数据清洗

5. 处理异常值

6. 数据标准化与一致性

实战建议与最佳实践

总结

Python 基础入门 Day33 —— 并发与多线程编程

Python 基础入门 Day34：使用类方法与静态方法

开启 Google Cloud 实例的 Root 远程登录权限

Python 基础入门 Day35

Python 基础入门 Day36

Python 基础入门 Day37：集成学习初探（随机森林 & 梯度提升树）

隐藏 nodeloc等类似论坛广告和欢迎横幅油猴脚本

Python 基础入门 Day38：Flask 入门实践（一）搭建你的第一个 Web 应用

Python 基础入门 Day39：Pandas 数据可视化初探

Python 基础入门 Day40：自动化办公基础 —— 操作 Excel 文件（openpyxl）

Python 数据分析实战：深入Pandas多表合并与复杂数据清洗核心技巧

数据整合的艺术：Pandas 多表合并技巧

1. pd.merge()：关系型数据合并的瑞士军刀

2. pd.concat()：堆叠数据的利器

3. DataFrame.join()：索引合并的简洁方式

告别脏数据：Pandas 复杂数据清洗策略

1. 处理缺失值 (NaN)

2. 处理重复值

3. 数据类型转换

4. 字符串数据清洗

5. 处理异常值

6. 数据标准化与一致性

实战建议与最佳实践

总结

1. `pd.merge()`：关系型数据合并的瑞士军刀

2. `pd.concat()`：堆叠数据的利器

3. `DataFrame.join()`：索引合并的简洁方式

1. 处理缺失值 (`NaN`)