Python 数据分析实战：Pandas 多表合并与复杂数据清洗技巧深度解析

3次阅读

共计 6665 个字符，预计需要花费 17 分钟才能阅读完成。

在当今数据驱动的世界里，数据已经成为企业和个人做出明智决策的核心资产。然而，原始数据往往是零散、不完整、充满噪音的。想象一下，客户信息存储在一个数据库，订单详情在另一个 Excel 文件，产品库存又在 CSV 中。要从这些分散的数据中提取有价值的洞察，首先就需要将它们整合起来，并清除其中的“杂质”。

这就是 Pandas 库大显身手的时候。作为 Python 数据科学的核心工具，Pandas 提供了一套强大而灵活的功能，专为数据处理和分析而设计。本文将深入探讨 Pandas 在 多表合并 和 复杂数据清洗 方面的实战技巧，帮助你从容应对真实世界中的数据挑战，将看似无关的数据片段转化为连贯、可分析的信息流。

数据分析师在日常工作中面临两大常见且关键的挑战：

数据孤岛问题： 现实世界中的数据极少以“一站式”的完美格式出现。信息可能分散在不同的系统、数据库、文件（CSV、Excel、JSON、SQL 等）中，形成一个个“数据孤岛”。为了进行全面的分析，例如计算某地区特定产品的销售额，你需要将客户、订单和产品数据整合到一起。多表合并技术就是解决这一问题的利器。
数据质量问题： 即便是整合后的数据，也往往充满瑕疵。这些“瑕疵”可能包括：
- 缺失值 (Missing Values)： 数据点缺失，例如客户的电话号码未填写。
- 重复值 (Duplicate Values)： 相同的记录出现多次，导致统计偏差。
- 异常值 (Outliers)： 明显偏离正常范围的数据点，可能是录入错误或特殊事件，会严重影响模型准确性。
- 格式不一致 (Inconsistent Formats)： 例如日期格式有多种（“2023-01-01”vs.“01/01/2023”），或文本大小写混乱。
- 数据类型错误 (Incorrect Data Types)： 数字被存储为字符串，日期被视为普通对象。
- 逻辑错误： 例如年龄为负数，或销售额为零但有库存。

这些数据质量问题不仅会阻碍你构建准确的分析模型，甚至可能导致错误的商业决策。因此，掌握高效的数据清洗技巧，是每一位数据分析师的必备功课。

Pandas 提供了多种合并（merge）、连接（join）和拼接（concatenate）数据表的方法，它们各有侧重，适用于不同的场景。理解它们的工作原理和适用性至关重要。

核心操作：`pd.merge()` 深度解析

pd.merge() 是 Pandas 中功能最强大、最灵活的合并函数，它类似于 SQL 中的 JOIN 操作。

合并的基础是找到两个 DataFrame 之间共同的列（或索引），这些列被称为“键”。merge 函数通过这些键来匹配行。

on 参数： 当两个 DataFrame 都有同名的公共列作为键时，可以直接使用 on='key_column_name'。
left_on 和 right_on 参数： 当两个 DataFrame 的键列名称不同时，可以使用 left_on='key_column_left' 和 right_on='key_column_right' 分别指定左边和右边的键。
多键合并： 如果需要基于多个列进行匹配，可以传入一个列表，例如 on=['key1', 'key2']。

how 参数决定了合并的方式，即哪些行会被保留。它提供了四种主要的连接类型，与 SQL 中的 JOIN 操作异曲同工：

how='inner' (内连接)： 这是默认类型。它只保留两个 DataFrame 中键值都存在的行（即交集）。如果一个键在其中一个表中没有匹配项，那么包含该键的行将不会出现在结果中。适用于需要严格匹配的场景。
how='left' (左连接)： 保留左边 DataFrame 的所有行。如果左边的键在右边没有匹配项，右边 DataFrame 对应的列将填充 NaN（Not a Number）。如果左边的键在右边有多个匹配项，左边的行将复制并与右边的所有匹配项组合。适用于保留主表信息，并根据需要添加辅助信息的场景。
how='right' (右连接)： 与左连接类似，但保留右边 DataFrame 的所有行。如果右边的键在左边没有匹配项，左边 DataFrame 对应的列将填充 NaN。
how='outer' (外连接 / 全连接)： 保留两个 DataFrame 的所有行（即并集）。如果某个键在其中一个表中没有匹配项，对应的列将填充 NaN。适用于需要查看所有可能数据的场景，即使存在缺失匹配。

当两个 DataFrame 中存在非键列名称相同的情况时，merge 函数会自动在冲突列名后添加后缀（默认为 _x 和 _y），例如 column_name_x 和 column_name_y。你可以通过 suffixes 参数自定义这些后缀，例如 suffixes=('_left', '_right')，这有助于更好地理解数据来源。

其他合并操作：`concat()` 与 `join()`

除了 merge，Pandas 还提供了 concat() 和 DataFrame 的 .join() 方法。

1. `pd.concat()`：拼接数据

pd.concat() 主要用于“堆叠”或“拼接”多个 DataFrame 或 Series。它更侧重于结构上的组合，而不是基于键的逻辑匹配。

按行堆叠 (axis=0)： 这是默认行为，将多个 DataFrame 垂直堆叠在一起，增加行数。通常要求列名一致。例如，你可以将不同月份的销售数据（结构相同）堆叠成一个年度销售总表。
按列拼接 (axis=1)： 将多个 DataFrame 水平拼接在一起，增加列数。这要求它们的索引（index）是相关的。
ignore_index=True： 在堆叠后重置索引，避免重复索引或不连续索引。

concat 在处理结构相似但来自不同来源的数据时非常有用，比如将多个传感器的数据或多个季度报告合并。

2. `.join()`：基于索引的连接

DataFrame 的 .join() 方法是 merge 的一个语法糖，尤其适用于基于索引进行连接。默认情况下，它执行左连接 (how='left')，以调用 .join() 方法的 DataFrame 的索引为基础，去匹配另一个 DataFrame 的索引（或指定列）。

df1.join(df2) 相当于 pd.merge(df1, df2, left_index=True, right_index=True, how='left')。
你也可以指定 on 参数来基于列进行连接，例如 df1.join(df2.set_index('key_column'), on='key_column')，但通常 merge 更直接。

何时选用？

pd.merge()： 最常用且最强大的工具，适用于需要根据一个或多个键进行复杂逻辑匹配的场景。
pd.concat()： 当你有多组结构相似的数据，需要按行（或按索引按列）简单堆叠或拼接时。
.join()： 当你的连接条件主要是基于 DataFrame 的索引时，它提供了更简洁的语法。

掌握了数据合并，接下来就是让数据变得“干净”和“可用”。数据清洗是一个迭代的过程，通常需要结合领域知识和对数据的深入探索。

缺失值是数据中最常见的“脏数据”之一。

识别缺失值：
- df.isnull() 或 df.isna()：返回一个布尔型 DataFrame，指示每个位置是否为缺失值。
- df.isnull().sum()：统计每列的缺失值数量。
- df.info()：快速查看各列的非空值数量，从而推断缺失值。
处理策略：
- 删除： df.dropna()
  - axis=0 (默认)：删除包含任何缺失值的行。
  - axis=1：删除包含任何缺失值的列。
  - how='any' (默认)：只要有缺失值就删除。
  - how='all'：只有当一行 / 列所有值都缺失时才删除。
  - thresh=N：保留至少有 N 个非缺失值的行 / 列。
- 填充： df.fillna()
  - 固定值： df['column'].fillna(0) 或 fillna('未知')。
  - 统计量填充： df['column'].fillna(df['column'].mean()) / median() / mode()[0]。
  - 前向 / 后向填充： df.fillna(method='ffill')（用前一个有效值填充）或 fillna(method='bfill')（用后一个有效值填充）。
- 插值： df.interpolate()：根据已知值推断缺失值，特别适用于时间序列数据。

重复数据会扭曲统计结果和模型训练。

识别重复值：
- df.duplicated()：返回一个布尔型 Series，指示每一行是否是重复行（第一次出现的副本不算重复）。
- df.duplicated().sum()：统计重复行数量。
- subset=['col1', 'col2']：指定在哪些列上判断重复。
- keep='first' (默认)：标记除第一次出现之外的所有重复项。'last' 标记除最后一次之外的，False 标记所有重复项。
删除重复值：
- df.drop_duplicates()：直接删除重复行。参数与 duplicated() 类似。

异常值可能是数据录入错误、测量误差或真实但极端的情况。它们会显著影响统计分析和模型性能。

识别方法：
- 统计方法：
  - IQR（四分位距）法： 计算 Q1（第一四分位数）和 Q3（第三四分位数），IQR = Q3 – Q1。低于 Q1 – 1.5 IQR 或高于 Q3 + 1.5 IQR 的值通常被视为异常值。
  - Z-score 法： 对于符合正态分布的数据，Z-score 超过 ±3 的值通常被认为是异常值。
- 可视化： 箱线图 (boxplot)、散点图 (scatterplot)、直方图 (histogram) 都是发现异常值的有效工具。
处理策略：
- 删除： 如果异常值数量不多且确定是错误，可以直接删除。
- 替换 / 封顶 (Capping)： 将异常值替换为特定阈值（例如 IQR 上下限）或用附近的最大 / 最小值替换。
- 转换： 对数据进行对数转换、平方根转换等，以减少异常值的影响。
- 保留： 有时异常值本身就包含了重要的信息，不应被随意删除或修改。

数据类型不正确会导致计算错误或内存浪费。

df.astype()： 将列转换为指定类型，例如 df['column'].astype(int)。
pd.to_datetime()： 将字符串或数字转换为日期时间对象，例如 pd.to_datetime(df['date_column'], errors='coerce')。errors='coerce' 会将无法转换的值设为 NaT（Not a Time）。
pd.to_numeric()： 将列转换为数值类型，例如 pd.to_numeric(df['price_column'], errors='coerce')。

处理非结构化或半结构化文本数据是另一项常见的清洗任务。

字符串方法 (.str 访问器)： Pandas DataFrame 的 Series 对象有一个 .str 访问器，可以让你对字符串列应用各种字符串操作。
- df['text_col'].str.lower() / upper()：转换为小写 / 大写。
- df['text_col'].str.strip()：去除字符串两端的空格。
- df['text_col'].str.replace('old', 'new')：替换子字符串。
- df['text_col'].str.contains('keyword')：检查是否包含特定子字符串。
- df['text_col'].str.split(',')：按分隔符拆分字符串。
正则表达式： 结合 .str 访问器使用正则表达式，可以实现更复杂的模式匹配和提取。
- df['text_col'].str.extract(r'(d{4}-d{2}-d{2})')：提取日期模式。

单位转换： 确保所有数值列使用统一的单位（例如，将所有货币单位统一为人民币，或将所有距离单位统一为公里）。
分类变量编码： 对于机器学习模型，分类变量需要转换为数值形式。
- 独热编码 (One-Hot Encoding)： pd.get_dummies(df['category_col'])，将一个分类列转换为多个二元（0/1）列。
- 标签编码 (Label Encoding)： 使用 sklearn.preprocessing.LabelEncoder，将分类标签转换为整数。
数据透视与重塑： pivot_table 用于聚合和重塑数据，melt 用于将宽格式数据转换为长格式数据，这在数据清洗和准备阶段非常有用。

将多个 Pandas 操作连接在一起，形成一个流畅的代码链。这不仅可以提高代码的可读性，减少中间变量，还能在某些情况下提升性能。

# 示例：清洗并合并
cleaned_df = (df
              .dropna(subset=['col1', 'col2'])
              .astype({'col3': int, 'col4': float})
              .assign(new_col = lambda x: x['col1'] * x['col2'])
             )

2. 函数式编程思维：`apply()`, `map()`, `applymap()`

apply()： 最灵活的方法。
- 应用于 Series 时，对 Series 中的每个元素执行函数。
- 应用于 DataFrame 时，可以按行 (axis=1) 或按列 (axis=0) 执行函数，函数接收 Series 作为输入。
map()： 仅适用于 Series，将 Series 中的每个值映射到另一个值。通常用于 Series 上的元素级转换或基于字典的查找。
applymap()： 仅适用于 DataFrame，对 DataFrame 中的每一个元素（非字符串）都执行函数。

选择哪一个取决于你的操作粒度：对整个 DataFrame 元素级操作用 applymap，对 Series 元素级操作用 map，对 DataFrame 行 / 列或 Series 整体操作用 apply。

处理大数据集时，性能是关键。

避免显式循环： 尽量使用 Pandas 内置的向量化操作（例如 Series 的 .str 访问器、算术运算等），而不是 Python 的 for 循环，因为内置操作通常是用 C 语言编写的，效率更高。
选择合适的数据类型：
- 对于分类数据，使用 category 类型可以显著减少内存占用并提高一些操作的速度。
- 对于整数，选择 int8, int16 等更小的整数类型。
- 对于浮点数，float32 通常就足够。
read_csv 的 dtype 参数： 在加载数据时就指定列的数据类型，可以避免后续类型转换的开销。
使用 numexpr 和 bottleneck： 这些库可以自动集成到 Pandas 中，用于加速一些数值运算。

数据清洗不是一次性任务。它通常是一个迭代和探索性过程：

理解数据： 使用 info(), describe(), value_counts() 等进行初步探索。
识别问题： 发现缺失值、异常值、不一致等。
制定策略： 根据问题类型和业务背景，选择合适的清洗方法。
执行清洗： 应用 Pandas 函数。
验证结果： 清洗后再次探索数据，检查问题是否解决，是否引入了新问题。
重复： 直到数据质量达到要求。

记录你的清洗步骤和决策非常重要。使用 Jupyter Notebook 可以很好地记录整个数据处理流程。将处理后的数据保存，并利用版本控制（如 Git）管理你的代码和数据处理脚本，以便追溯和复现。

Python 和 Pandas 是数据科学领域不可或缺的工具。掌握了多表合并和复杂数据清洗的技巧，你将能够：

打破数据孤岛： 将来自不同来源的数据整合为统一、全面的数据集。
提升数据质量： 移除或修正数据中的错误、不一致和缺失，确保分析的准确性。
加速分析流程： 通过高效的数据处理，更快地从原始数据中提取有价值的信息。
构建更可靠的模型： 清洁、结构化的数据是任何机器学习模型成功的基石。

数据清洗和合并虽然可能耗费大量时间，但它们是任何成功数据分析项目的基石。投入时间和精力去磨练这些技能，你将能够更自信地处理任何现实世界的数据集，并将原始数据转化为洞察，最终赋能更明智的商业决策。现在，是时候动手实践，将这些技巧融入你的数据分析工作流中了！

正文完

发表至： Python

近一天内

0

Python 3.12+ 新特性实战：match-case 高级用法与性能优化

Python 基础入门 Day36

Python基础入门 Day111 正则表达式中的零宽断言（前瞻与后顾）

Python基础入门 Day73 异常处理与错误捕获

用 Python 实现爬虫代理池：动态 IP 获取与有效性验证

Python 数据分析实战：Pandas 多表合并与复杂数据清洗技巧深度解析

数据分析的核心挑战：为什么需要多表合并与数据清洗？