Python 批量处理文件：路径操作与正则匹配高效重命名实战

90次阅读

共计 9171 个字符，预计需要花费 23 分钟才能阅读完成。

引言

在日常工作和学习中，我们经常需要处理大量的电子文件。无论是整理照片、管理文档，还是处理代码仓库中的各种资源文件，手动逐一重命名都是一项枯燥、耗时且容易出错的任务。想象一下，如果你有成百上千个文件名不规范、需要统一格式的文件，该如何高效应对？

这时候，Python 这门强大的脚本语言就显得尤为重要。它凭借其简洁的语法和丰富的标准库，成为了自动化文件处理领域的“瑞士军刀”。本文将深入探讨如何利用 Python 的 os 模块、pathlib 模块进行路径操作，并结合 re 模块进行正则表达式匹配，从而实现高效、智能的文件批量重命名，彻底解放你的双手，让文件管理变得轻而易举。

Python 在文件批量处理方面拥有得天独厚的优势：

强大的生态系统 ：Python 拥有丰富的标准库（如 os、shutil、pathlib、re）和第三方库，可以轻松处理文件和目录的各种操作，包括读取、写入、移动、复制、删除、重命名等。
跨平台兼容性 ：Python 代码可以在 Windows、macOS 和 Linux 等多种操作系统上无缝运行，这意味着你编写的一次性脚本可以在任何环境下使用，无需修改。
易学易用 ：Python 语法简洁明了，即使是编程新手也能在短时间内掌握基础，并开始编写实用的自动化脚本。
高度自动化能力 ：Python 不仅仅能重命名文件，还可以结合其他功能，例如根据文件内容进行分类、根据日期自动归档、批量修改文件权限等，实现更高级的自动化工作流。
灵活性与可扩展性 ：面对复杂的重命名逻辑，Python 结合正则表达式能够提供极高的灵活性，满足几乎所有定制化的需求，并且代码易于维护和扩展。

在进行文件重命名之前，我们首先需要了解如何在 Python 中操作文件路径。os 模块是 Python 传统的文件系统交互接口，而 pathlib 模块则提供了更现代、面向对象的方法。

os 模块是 Python 的内置模块，提供了与操作系统进行交互的函数，包括文件和目录操作。

常用功能概览：

os.listdir(path): 返回指定目录中所有文件和子目录的名称列表。
os.path.join(path, *paths): 智能地拼接路径，自动处理不同操作系统的路径分隔符差异。
os.path.splitext(path): 将文件路径分割为文件名（不含扩展名）和扩展名两部分。
os.rename(src, dst): 重命名文件或目录。src 是旧路径，dst 是新路径。
os.walk(top, topdown=True, onerror=None, followlinks=False): 遍历目录树，返回一个三元组 (dirpath, dirnames, filenames)。

示例：使用 os 模块列出文件并进行简单重命名

import os

def rename_with_os(directory, old_prefix, new_prefix):
    """使用 os 模块批量重命名文件，将指定前缀替换为新前缀。"""
    print(f"--- 使用 os 模块处理目录: {directory} ---")
    for filename in os.listdir(directory):
        if filename.startswith(old_prefix):
            old_filepath = os.path.join(directory, filename)
            new_filename = filename.replace(old_prefix, new_prefix, 1) # 只替换第一个匹配项
            new_filepath = os.path.join(directory, new_filename)

            # 打印将要进行的重命名操作，而不是直接执行
            print(f"将'{old_filepath}'重命名为'{new_filepath}'")
            # os.rename(old_filepath, new_filepath) # 实际执行重命名时取消注释
    print("--- os 模块处理完成 ---")

# 假设当前目录下有一个名为 'test_files_os' 的文件夹
# 为了演示，先手动创建一些文件或模拟文件
# with open("test_files_os/report_2023.txt", "w") as f: pass
# with open("test_files_os/report_2024.pdf", "w") as f: pass
# with open("test_files_os/data_sheet.xlsx", "w") as f: pass

# rename_with_os('test_files_os', 'report_', 'final_report_')

pathlib 模块在 Python 3.4 引入，提供了一种面向对象的路径操作方式，使得代码更加清晰、易读和健壮。它被认为是处理文件路径的现代最佳实践。

常用功能概览：

Path('path/to/file'): 创建一个 Path 对象。
Path.iterdir(): 遍历目录中的文件和子目录，返回 Path 对象迭代器。
Path.name: 获取文件的完整名称（包含扩展名）。
Path.stem: 获取文件名（不包含扩展名）。
Path.suffix: 获取文件扩展名。
Path.parent: 获取父目录的 Path 对象。
path / 'sub_dir' / 'file.txt': 使用 / 运算符进行路径拼接，非常直观。
Path.rename(new_path): 重命名文件或目录。
Path.glob(pattern): 使用通配符（如 *.txt）查找符合模式的文件。
Path.rglob(pattern): 递归地查找符合模式的文件。

示例：使用 pathlib 模块列出文件并进行简单重命名

from pathlib import Path

def rename_with_pathlib(directory, old_prefix, new_prefix):
    """使用 pathlib 模块批量重命名文件，将指定前缀替换为新前缀。"""
    target_dir = Path(directory)
    print(f"--- 使用 pathlib 模块处理目录: {target_dir} ---")

    if not target_dir.is_dir():
        print(f"错误: {directory} 不是一个有效的目录。")
        return

    for filepath in target_dir.iterdir():
        if filepath.is_file() and filepath.name.startswith(old_prefix):
            new_filename = filepath.name.replace(old_prefix, new_prefix, 1)
            new_filepath = filepath.with_name(new_filename) # 使用 with_name 保持路径但改变文件名

            print(f"将'{filepath}'重命名为'{new_filepath}'")
            # filepath.rename(new_filepath) # 实际执行重命名时取消注释
    print("--- pathlib 模块处理完成 ---")

# 假设当前目录下有一个名为 'test_files_pathlib' 的文件夹
# 为了演示，先手动创建一些文件或模拟文件
# Path("test_files_pathlib/report_2023.txt").touch()
# Path("test_files_pathlib/report_2024.pdf").touch()
# Path("test_files_pathlib/data_sheet.xlsx").touch()

# rename_with_pathlib('test_files_pathlib', 'report_', 'final_report_')

os vs pathlib 总结：

os 模块 ：更底层，函数式操作，代码可能略显冗长。在处理一些特定低级别系统调用时仍有其优势。
pathlib 模块 ：面向对象，代码更简洁、直观，更具可读性。推荐在新项目中优先使用 pathlib。

本文后续示例将主要采用 pathlib 模块，因为它更符合现代 Python 的编程风格。

当文件重命名需求变得复杂，仅仅依靠 startswith() 或 replace() 无法满足时，正则表达式（Regular Expressions, regex/regexp）就成为了不可或缺的利器。Python 的 re 模块提供了强大的正则表达式功能。

模糊匹配 ：当文件名模式不固定，但存在某种规律时，正则可以精准匹配。
提取信息 ：从复杂的文件名中抽取出日期、版本号、作者名等关键信息。
复杂替换 ：根据匹配到的模式进行智能替换，例如删除多余字符、重新排列文件名中的元素。

re.search(pattern, string): 在字符串中查找模式的第一个匹配项。如果找到，返回一个匹配对象；否则返回 None。
re.findall(pattern, string): 查找字符串中所有非重叠的模式匹配项，并返回一个列表。
re.sub(pattern, repl, string, count=0, flags=0): 替换字符串中所有匹配模式的部分为 repl。repl 可以是字符串，也可以是一个函数。

常用正则表达式模式：

.：匹配除换行符以外的任何单个字符。
*：匹配前一个字符零次或多次。
+：匹配前一个字符一次或多次。
?：匹配前一个字符零次或一次。
[]：匹配方括号内的任意一个字符。例如 [abc] 匹配 ‘a’, ‘b’, 或 ‘c’。
()： 捕获组 。将匹配的模式组合成一个组，可以单独提取其内容。
d：匹配任意数字 (0-9)。等同于 [0-9]。
w：匹配任意字母、数字或下划线。等同于 [a-zA-Z0-9_]。
s：匹配任意空白字符（空格、制表符、换行符等）。
^：匹配字符串的开始。
$：匹配字符串的结束。
|：逻辑或，例如 cat|dog 匹配 “cat” 或 “dog”。
{n}：匹配前一个字符 n 次。
{n,m}：匹配前一个字符 n 到 m 次。

捕获组 (Capture Groups) 的重要性：

使用 () 定义的捕获组，可以在匹配成功后，通过匹配对象的 group(index) 方法来获取对应组的内容。group(0) 或 group() 返回整个匹配项，group(1) 返回第一个捕获组的内容，以此类推。这对于从文件名中提取特定信息至关重要。

示例：简单正则表达式匹配与替换

import re

text = "我的文档_2023-10-26_v1.0.docx"
pattern = r"(d{4}-d{2}-d{2})" # 匹配日期格式 YYYY-MM-DD
match = re.search(pattern, text)

if match:
    date_str = match.group(1)
    print(f"在'{text}'中找到日期: {date_str}") # 输出: 2023-10-26

# 使用捕获组和 re.sub 进行替换
new_text = re.sub(r"v(d+.d+)", r"version-1", text)
print(f"替换后的文本: {new_text}") # 输出: 我的文档_2023-10-26_version-1.0.docx

现在，我们将 pathlib 的路径操作和 re 的正则表达式结合起来，解决一些实际的文件批量重命名场景。

安全提示：空运行 (Dry Run) 模式

在执行任何批量重命名操作之前，强烈建议先进行“空运行”测试。这意味着你的脚本会打印出它将要进行的重命名操作（旧名称和新名称），但不会真正修改文件。只有当你确认所有操作都符合预期时，才将 dry_run 设为 False 并执行实际的重命名。

from pathlib import Path
import re

def batch_rename_files(directory, pattern, replacement, dry_run=True):
    """
    通用批量重命名函数，结合 pathlib 和 re 模块。:param directory: 要处理的目录路径。:param pattern: 用于匹配文件名的正则表达式模式。:param replacement: 替换字符串，可以使用捕获组（如 1, 2）。:param dry_run: 如果为 True，则只打印将要进行的重命名操作，不实际执行。"""
    target_dir = Path(directory)
    if not target_dir.is_dir():
        print(f"错误: 目录'{directory}'不存在或不是一个有效的目录。")
        return

    print(f"n--- 批量重命名开始 (Dry Run: {dry_run}) ---")
    print(f"目标目录: {target_dir}")
    print(f"匹配模式:'{pattern}'")
    print(f"替换为:'{replacement}'")

    renamed_count = 0
    for filepath in target_dir.iterdir():
        if filepath.is_file(): # 只处理文件，跳过子目录
            match = re.search(pattern, filepath.name)
            if match:
                # 使用 re.sub 进行替换，re.sub 可以直接处理捕获组
                new_filename = re.sub(pattern, replacement, filepath.name)

                # 检查新文件名是否与旧文件名不同
                if new_filename != filepath.name:
                    new_filepath = filepath.with_name(new_filename)

                    if new_filepath.exists() and new_filepath != filepath:
                        print(f"警告: 新文件名'{new_filepath.name}'已存在，跳过'{filepath.name}'以避免覆盖。")
                        continue

                    print(f"'{filepath.name}' -> '{new_filepath.name}'")
                    if not dry_run:
                        try:
                            filepath.rename(new_filepath)
                            renamed_count += 1
                        except OSError as e:
                            print(f"错误重命名'{filepath.name}': {e}")
                else:
                    # 如果匹配成功但新旧文件名相同，说明没有变化，不打印
                    pass
            # else:
            #     print(f"'{filepath.name}' 未匹配。") # 如果需要，可以打印未匹配的文件

    print(f"--- 批量重命名完成。共 {renamed_count} 个文件被处理 ({' 空运行 'if dry_run else' 实际执行 '}) ---")

假设我们有一些报告文件，名称格式为 Report_ProjectA_2023.docx、Report_ProjectB_2024.pdf。现在需要将所有 Report_ 改为 FinalReport_。

# 假设有以下文件在 'docs_v1' 目录下
# Path("docs_v1/Report_ProjectA_2023.docx").touch()
# Path("docs_v1/Report_ProjectB_2024.pdf").touch()
# Path("docs_v1/MeetingNotes_2023.txt").touch()

# 示例调用：将 'Report_' 替换为 'FinalReport_'
# batch_rename_files(
#     'docs_v1',
#     r"^(Report_)(.*)", # 匹配以 "Report_" 开头的文件名，并捕获其余部分
#     r"FinalReport_2",  # 2 代表第二个捕获组（即文件名其余部分）#     dry_run=True       # 先进行空运行
# )
# batch_rename_files(
#     'docs_v1',
#     r"^(Report_)(.*)",
#     r"FinalReport_2",
#     dry_run=False      # 确认无误后，设为 False 执行
# )

这里 ^(Report_)(.*) 模式匹配以 Report_ 开头的文件名。^ 表示字符串开头，(Report_) 捕获 “Report“，(.*) 捕获从 “Report” 之后的所有字符直到字符串结束。2 在替换字符串中引用了第二个捕获组的内容。

文件名中常常混有用户不小心输入的特殊字符、多余的空格或者一些系统自动添加的标记（如 - 副本 ）。

假设文件名有 图片 (副本).jpg、 文档 - Copy.pdf、 空白文件.txt。我们想把它们标准化。

# 假设有以下文件在 'clean_files' 目录下
# Path("clean_files/ 图片 ( 副本).jpg").touch()
# Path("clean_files/ 文档 - Copy.pdf").touch()
# Path("clean_files/   空白 文件.txt").touch()
# Path("clean_files/ 正常的文档.docx").touch()

# 示例调用：清理文件名中的 '(副本)', '- Copy', 多余空格
# 正则表达式说明：# r"(s*((|[|【) 副本 ()|]|】)?s*)|(s*-s*Copys*)" 匹配 "(副本)", "[副本]", "【副本】", "- Copy" 等变体。# r"^s+|s+$" 匹配开头或结尾的空格。# r"s+" 匹配一个或多个空格。# 步骤 1: 移除 '(副本)', '- Copy' 等
# batch_rename_files(
#     'clean_files',
#     r"(s*((|[|【) 副本 ()|]|】)?s*)|(s*-s*Copys*)",
#     "", # 替换为空字符串，即删除
#     dry_run=True
# )

# 步骤 2: 移除文件名开头和结尾的空格
# batch_rename_files(
#     'clean_files',
#     r"^s+|s+$",
#     "", # 替换为空字符串
#     dry_run=True
# )

# 步骤 3: 将文件名中的多个连续空格替换为单个空格
# batch_rename_files(
#     'clean_files',
#     r"s+",
#     " ", # 替换为单个空格
#     dry_run=True
# )

由于清理操作可能涉及多个步骤，建议分步进行，每一步都先 dry_run=True 验证效果。

这是正则表达式最有用的地方之一。假设你有一系列图片文件，命名格式为 IMG_YEARMMDD_HHMMSS_SEQ.jpg，现在你想把它们改成 YEARMMDD_IMG_HHMMSS_SEQ.jpg，或者仅仅提取日期进行重命名。

例如：IMG_20231026_143005_001.jpg 变为 20231026_IMG_143005_001.jpg。

# 假设有以下文件在 'photos' 目录下
# Path("photos/IMG_20231026_143005_001.jpg").touch()
# Path("photos/IMG_20231027_101530_002.png").touch()
# Path("photos/VIDEO_20231028_090000.mp4").touch()

# 示例调用：重新排列文件名中的日期和前缀
# 正则表达式：# r"^(IMG_)(d{8})_(d{6})_(d{3})(.jpg|.png)$"
# ^(IMG_)              -> 捕获组 1: 匹配并捕获 "IMG_"
# (d{8})              -> 捕获组 2: 匹配并捕获 8 位数字 (日期)
# _                    -> 匹配下划线
# (d{6})              -> 捕获组 3: 匹配并捕获 6 位数字 (时间)
# _                    -> 匹配下划线
# (d{3})              -> 捕获组 4: 匹配并捕获 3 位数字 (序列号)
# (.jpg|.png)$      -> 捕获组 5: 匹配并捕获 ".jpg" 或 ".png" 扩展名，且确保在字符串结尾
#
# 替换字符串 r"2_13_45"
# 2: 日期
# _: 下划线
# 1: IMG_
# 3: 时间
# _: 下划线
# 4: 序列号
# 5: 扩展名

# batch_rename_files(
#     'photos',
#     r"^(IMG_)(d{8})_(d{6})_(d{3})(.jpg|.png)$",
#     r"2_13_45", # 将捕获组重新排序组合
#     dry_run=True
# )
# batch_rename_files(
#     'photos',
#     r"^(IMG_)(d{8})_(d{6})_(d{3})(.jpg|.png)$",
#     r"2_13_45",
#     dry_run=False
# )

这个例子展示了正则表达式捕获组的强大，你可以根据自己的需求任意重新排列或组合捕获到的信息。

备份！备份！备份！ 在进行任何批量文件操作之前，务必备份你的文件。这是最重要的步骤，可以防止任何意外的数据丢失。
从小文件集开始测试： 不要直接在整个大目录上运行脚本。先在一个包含几个示例文件的测试目录中进行尝试和验证。
使用 dry_run 模式： 如上面示例所示，始终先进行空运行，仔细检查输出，确保重命名逻辑完全符合预期，然后再执行实际操作。
处理异常： 在实际应用中，你的代码应该考虑文件不存在、权限不足、新旧文件名相同、新文件名已存在等情况，使用 try-except 块来捕获和处理 OSError。
避免文件名冲突： 在生成新文件名时，如果可能，检查新文件名是否已经存在。如果存在，你可以选择跳过，或者添加一个递增的序号（例如 filename_1.txt）。
跨平台兼容性： pathlib 模块本身就很好地处理了路径分隔符的跨平台问题，尽量避免硬编码 / 或。
明确需求： 在编写正则表达式和替换逻辑之前，清晰地定义你的重命名规则。画出旧文件名和新文件名之间的映射关系。
注释代码： 复杂的正则表达式往往难以理解，为你的模式和替换逻辑添加清晰的注释，方便日后维护和他人理解。