告别卡顿！Python处理大规模CSV数据的高效策略与实战

153次阅读

共计 6284 个字符，预计需要花费 16 分钟才能阅读完成。

上周帮一个新同事处理几十个 G 的日志文件时，发现他还在用 csv 模块一行一行地读，或者直接 pd.read_csv() 试图一次性加载所有数据，结果内存直接爆了，程序频繁崩溃。其实，处理这种巨型文件，Pandas 配合一些技巧能让效率提升好几倍，还能有效避免内存溢出。今天咱们就来聊聊如何在 Python 中高效、优雅地处理大规模 CSV 数据。

对于小文件，直接使用 csv 模块或者 pd.read_csv() 毫无问题。但当文件体积达到数 GB 甚至数十 GB 时，这些方法就会遇到瓶颈：

csv 模块逐行读取： 虽然不会一次性加载所有数据到内存，但如果需要对全部数据进行统计或聚合操作，仍然需要将处理结果暂存，或者进行大量文件 I/O 操作，效率低下。
pd.read_csv() 默认行为： Pandas 默认会尝试将整个 CSV 文件一次性加载到 DataFrame 中。如果文件大小超过了你的可用内存，就会导致 MemoryError。

我刚开始接触大数据文件时，也踩过这个坑，以为 Python 能“魔术般”地处理一切，结果面对一个 10GB 的 CSV 文件，直接 read_csv 就让我的 16GB 内存电脑卡死，然后程序崩溃。这让我意识到，处理大文件，核心在于“化整为零”。

为了高效处理大规模 CSV 文件，我们需要从两个核心点入手：分块读取 和 内存优化。

第一步：分块读取的艺术——`chunksize` 参数

Pandas 提供了 read_csv 函数的 chunksize 参数，允许我们将大文件分割成若干个小块（DataFrame），逐块进行处理。这就像是吃掉一个大蛋糕，不是一口吞下，而是一小块一小块地享用。

import pandas as pd
import os
import time

def process_large_csv_chunked(file_path, chunk_size=100000):
    """
    使用 chunksize 参数分块读取并处理大型 CSV 文件
    :param file_path: CSV 文件路径
    :param chunk_size: 每个数据块的行数
    """
    if not os.path.exists(file_path):
        print(f"错误：文件'{file_path}'不存在。")
        return

    print(f"开始处理文件：{file_path}，chunk_size={chunk_size}")
    start_time = time.time()

    total_rows = 0
    processed_chunks = 0

    # 假设我们想统计某个字段（例如 'value'）的总和
    sum_of_values = 0

    try:
        # 使用 iterator=True 或直接传入 chunksize
        for chunk in pd.read_csv(file_path, chunksize=chunk_size):
            processed_chunks += 1
            total_rows += len(chunk)

            # 在这里对每个 chunk 进行你需要的操作
            # 比如，我们模拟对 'value' 列求和
            if 'value' in chunk.columns:
                sum_of_values += chunk['value'].sum()
            else:
                # 这里加个 try-except 是因为之前爬取豆瓣时遇到过空值报错
                # 尤其是在处理字段不一致的日志文件时，踩过坑才知道要防一手
                print(f"警告：第 {processed_chunks} 块中缺少'value'列，跳过求和。")

            # 可以在这里打印进度，避免长时间无响应
            if processed_chunks % 10 == 0:
                print(f"已处理 {processed_chunks} 块，总行数：{total_rows}")

        end_time = time.time()
        print(f"n 文件处理完成！总块数：{processed_chunks}，总行数：{total_rows}。")
        print(f"总耗时：{end_time - start_time:.2f} 秒。")
        print(f"字段'value'的总和为：{sum_of_values}")

    except Exception as e:
        print(f"处理文件时发生错误：{e}")

# 示例：创建或使用一个大型模拟 CSV 文件
# 实际使用时替换为你的大文件路径
# create_large_csv("large_data.csv", num_rows=5000000, num_cols=5) 
# 如果你想测试，可以先运行 create_large_csv 函数生成一个大文件
# 或者直接用你现有的一个大文件替换下面的路径

# process_large_csv_chunked("large_data.csv", chunk_size=200000)

小提醒： chunksize 不是越大越好，也不是越小越好。如果 chunksize 太大，仍然可能导致单块数据超出内存；如果太小，会导致循环次数过多，Pandas 内部的 I/O 开销和创建 DataFrame 对象的开销会变得很大，反而降低效率。我平时会根据机器内存（通常是可用内存的 1/4 到 1/2）和单行数据大小来估算一个合适的 chunksize。比如，我的 32GB 内存机器，处理每行数据较宽的日志文件时，chunksize 设为 20 万到 50 万行比较合适。

第二步：进一步优化——选择合适的数据类型（`dtype`）

Pandas 在加载数据时会自动推断每列的数据类型。但这种自动推断往往会采用占用内存更大的类型，例如，整数列可能会被推断为 int64，浮点数可能为 float64，而实际上可能只需要 int16 或 float32。尤其是字符串列，默认会占用大量内存。

通过显式指定 dtype 参数，我们可以大大减少 DataFrame 的内存占用，这对于处理大规模数据至关重要。

import pandas as pd
import os

def process_large_csv_optimized_dtype(file_path, chunk_size=100000):
    """
    分块读取并优化数据类型处理大型 CSV 文件
    :param file_path: CSV 文件路径
    :param chunk_size: 每个数据块的行数
    """
    if not os.path.exists(file_path):
        print(f"错误：文件'{file_path}'不存在。")
        return

    print(f"开始处理文件：{file_path}，chunk_size={chunk_size}，并优化数据类型")

    # 定义数据类型映射，根据你的 CSV 文件实际情况调整
    # 这是一个关键步骤，需要你了解数据列的特征
    optimized_dtypes = {
        'id': 'int32',          # 假设 id 在 0 到 20 亿之间
        'name': 'category',     # 假设 name 是重复度高的有限字符串
        'value': 'float32',     # 假设 value 是浮点数，精度要求不高
        'timestamp': 'datetime64[ns]', # 时间戳类型
        'is_active': 'bool'     # 布尔类型
    }

    total_rows = 0
    processed_chunks = 0
    sum_of_values = 0

    try:
        # 使用 chunksize 和 dtype 参数
        for chunk in pd.read_csv(file_path, chunksize=chunk_size, dtype=optimized_dtypes, parse_dates=['timestamp']):
            processed_chunks += 1
            total_rows += len(chunk)

            if 'value' in chunk.columns:
                sum_of_values += chunk['value'].sum()

            if processed_chunks % 10 == 0:
                print(f"已处理 {processed_chunks} 块，总行数：{total_rows}。当前块内存占用：{chunk.memory_usage(deep=True).sum() / (1024*1024):.2f} MB")

        print(f"n 文件处理完成！总块数：{processed_chunks}，总行数：{total_rows}。")
        print(f"字段'value'的总和为：{sum_of_values}")

    except Exception as e:
        print(f"处理文件时发生错误：{e}")

# create_large_csv("large_data_with_types.csv", num_rows=5000000, num_cols=5) 
# process_large_csv_optimized_dtype("large_data_with_types.csv", chunk_size=200000)

小提醒：

字符串列： 如果某一列是字符串，且其取值种类有限（比如城市名称、产品分类），将其类型指定为 category 能大幅节省内存。我刚开始学的时候，总觉得指定 dtype 很麻烦，后来发现处理千万级数据时，内存占用能省一半，这功夫花得值！
数值列： 根据数值范围选择合适的 int (如 int8, int16, int32) 或 float (如 float32) 类型。例如，如果数值都在 -128 到 127 之间，用 int8 就足够了。
日期列： 使用 parse_dates 参数直接将日期字符串解析为 datetime 类型，方便后续操作。
提前检查： 在处理超大文件之前，可以先用 pd.read_csv(file_path, nrows=1000) 读取一小部分数据，用 df.info(memory_usage='deep') 和 df.dtypes 检查各列的实际数据类型和内存占用，从而规划最佳的 dtype 配置。

对于某些计算密集型的场景，即使分块处理，单个 CPU 核心的计算能力也可能成为瓶颈。这时，可以考虑利用 multiprocessing 或 concurrent.futures 库实现多进程或多线程并行处理每个数据块。

from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
import pandas as pd
import os
import time

def process_chunk_data(chunk):
    """
    定义对每个数据块的具体处理逻辑
    这里我们继续模拟对 'value' 列求和
    """if'value' in chunk.columns:
        return chunk['value'].sum()
    return 0

def process_large_csv_parallel(file_path, chunk_size=100000, max_workers=4):
    """
    使用多进程 / 多线程分块并行处理大型 CSV 文件
    :param file_path: CSV 文件路径
    :param chunk_size: 每个数据块的行数
    :param max_workers: 并行工作进程 / 线程数
    """
    if not os.path.exists(file_path):
        print(f"错误：文件'{file_path}'不存在。")
        return

    print(f"开始并行处理文件：{file_path}，chunk_size={chunk_size}，max_workers={max_workers}")
    start_time = time.time()

    total_rows = 0
    total_sum_of_values = 0

    # 考虑 Python GIL 的限制，IO 密集型任务用 ThreadPoolExecutor，CPU 密集型任务用 ProcessPoolExecutor
    # 对于文件读取和 DataFrame 操作，通常 IO 和内存操作较多，ThreadPoolExecutor 有时表现也不错
    # 但如果 chunk 处理逻辑是纯 CPU 密集型，ProcessPoolExecutor 会更好
    Executor = ProcessPoolExecutor # 也可以尝试 ThreadPoolExecutor

    try:
        with Executor(max_workers=max_workers) as executor:
            futures = []
            for i, chunk in enumerate(pd.read_csv(file_path, chunksize=chunk_size)):
                total_rows += len(chunk)
                future = executor.submit(process_chunk_data, chunk)
                futures.append(future)
                if (i + 1) % 10 == 0:
                    print(f"已提交 {i+1} 块任务，总行数：{total_rows}")

            for i, future in enumerate(futures):
                total_sum_of_values += future.result()
                if (i + 1) % 10 == 0:
                    print(f"已完成 {i+1} 块结果收集")

        end_time = time.time()
        print(f"n 文件并行处理完成！总行数：{total_rows}。")
        print(f"总耗时：{end_time - start_time:.2f} 秒。")
        print(f"字段'value'的总和为：{total_sum_of_values}")

    except Exception as e:
        print(f"并行处理文件时发生错误：{e}")

# process_large_csv_parallel("large_data_with_types.csv", chunk_size=200000, max_workers=4)

小提醒： 记得有一次处理 100 多个 GB 的 CSV 文件，单进程实在跑不完，最后用多进程把每个 chunk 分发出去才搞定，并行处理才是王道。使用多进程时要注意进程间通信的开销，避免过度细分任务。对于 I/O 密集型任务（如文件读写），多线程通常也能发挥作用；而对于 CPU 密集型计算，多进程才能真正利用多核优势，因为 Python 的 GIL 限制了多线程在单个进程内并行执行 CPU 密集型任务。

误区一：不考虑内存直接 read_csv()。 我刚接触 Pandas 时，以为它很智能，直接 pd.read_csv('超大文件.csv')，结果程序直接崩溃。后来才知道，Python 并不比你更懂数据文件的实际大小和你的内存容量。学会“化整为零”是处理大文件的第一课。
误区二：盲目设置 chunksize。 有些人觉得 chunksize 越大越好，一次性读完，这样又回到了内存溢出的问题。也有人设得太小，比如只有几百行，导致 I/O 操作频繁，Pandas 每次构建 DataFrame 的开销反而让处理速度更慢。这个参数需要根据实际情况调优，没有银弹。
误区三：不关心数据类型。 认为 Pandas 会自动推断类型，懒得手动指定。但自动推断不总是最优的，尤其是对内存敏感的场景。我亲测，在处理千万级数据时，合理配置 dtype 能让内存占用降低 30% 到 70%，从而让原本跑不起来的任务变得可行。