Python 批量处理文件：玩转路径操作与正则匹配实现高效重命名

2次阅读

共计 7525 个字符，预计需要花费 19 分钟才能阅读完成。

在日常工作和学习中，我们经常需要处理大量的数字文件，从文档、图片到视频，文件数量庞大且命名混乱。想象一下，你需要将上百张照片统一修改为“旅行_2023_001.jpg”的格式，或者将项目中所有带有特定前缀的文件重命名。手动操作无疑是效率低下且容易出错的噩梦。

此时，Python 犹如一位得力的助手，以其强大的文件系统操作能力和灵活的正则表达式匹配机制，为我们提供了优雅的解决方案。本文将深入探讨如何利用 Python 进行文件的批量处理，特别是路径操作和正则表达式在批量重命名中的应用，帮助你告别重复劳动，实现文件管理的自动化和智能化。

Python 在文件处理和自动化领域具有无可比拟的优势：

跨平台性：无论你使用 Windows、macOS 还是 Linux，Python 脚本都能无缝运行，确保了解决方案的通用性。
丰富的标准库：Python 内置了 os、shutil、re 等模块，它们提供了丰富的文件系统操作、路径处理和正则表达式匹配功能，无需额外安装第三方库即可完成复杂任务。
代码简洁易读：Python 语法直观，使得编写处理文件逻辑的代码变得简单，即使是初学者也能快速上手。
自动化能力强：通过编写一次脚本，你可以重复执行相同的批量操作，极大地节省时间并减少人为错误。
社区支持广泛：遇到问题时，庞大的 Python 社区总能提供帮助和解决方案。

os 模块是 Python 处理文件和目录的核心。它提供了与操作系统交互的接口，其中 os.path 子模块专门用于路径名的操作。

os.listdir(path) 函数用于返回指定目录下的所有文件和目录的名称列表。

import os

# 获取当前目录下的所有文件和目录
current_directory = os.getcwd()
contents = os.listdir(current_directory)
print(f"当前目录内容：{contents}")

# 假设有一个名为 'my_folder' 的子目录
# if 'my_folder' in contents and os.path.isdir(os.path.join(current_directory, 'my_folder')):
#     folder_contents = os.listdir(os.path.join(current_directory, 'my_folder'))
#     print(f"my_folder 目录内容：{folder_contents}")

在不同的操作系统中，路径分隔符（Windows 为，Unix/Linux/macOS 为 /）是不同的。os.path.join() 函数可以智能地拼接路径，确保代码的跨平台兼容性。

import os

folder_name = "reports"
file_name = "report_2023.pdf"

# 错误的做法：直接拼接字符串，可能导致跨平台问题
# full_path_bad = folder_name + "/" + file_name 
# print(f"错误拼接的路径：{full_path_bad}")

# 正确的做法：使用 os.path.join()
full_path_good = os.path.join(folder_name, file_name)
print(f"正确拼接的路径：{full_path_good}")

os.path 模块还提供了一系列函数来解析路径的各个部分：

os.path.basename(path): 返回路径中的文件名（包括扩展名）。
os.path.dirname(path): 返回路径中的目录名。
os.path.splitext(path): 将路径分割为根（文件名无扩展名）和扩展名两部分，返回一个元组 (root, ext)。

import os

file_path = "/home/user/documents/report_2023.pdf"
# 或者在 Windows 上可能是：'C:\Users\user\Documents\report_2023.pdf'

print(f"原始路径：{file_path}")
print(f"文件名（含扩展名）：{os.path.basename(file_path)}")
print(f"目录名：{os.path.dirname(file_path)}")

file_name_no_ext, file_extension = os.path.splitext(file_path)
print(f"文件名（无扩展名）：{file_name_no_ext}")
print(f"文件扩展名：{file_extension}")

os.rename(old_path, new_path) 是实现重命名的核心函数。它将 old_path 指向的文件或目录重命名为 new_path。

import os

# 创建一个测试文件
test_file_old = "test_old_name.txt"
with open(test_file_old, "w") as f:
    f.write("This is a test file.")

test_file_new = "test_new_name.txt"

if os.path.exists(test_file_old):
    os.rename(test_file_old, test_file_new)
    print(f"文件'{test_file_old}'已重命名为'{test_file_new}'")
else:
    print(f"文件'{test_file_old}'不存在。")

# 清理测试文件
if os.path.exists(test_file_new):
    os.remove(test_file_new)

正则表达式（Regular Expression，简称 regex 或 regexp）是一种强大的文本匹配模式。re 模块是 Python 中用于处理正则表达式的标准库。在批量重命名中，它能帮助我们根据复杂的模式识别、提取或替换文件名中的特定部分。

元字符：
- .: 匹配任意单个字符（除了换行符）。
- *: 匹配前一个字符零次或多次。
- +: 匹配前一个字符一次或多次。
- ?: 匹配前一个字符零次或一次。
- []: 匹配方括号内的任意一个字符，如 [abc] 匹配 ‘a’、’b’ 或 ‘c’。[0-9] 匹配数字。
- [^...]: 匹配不在方括号内的任意一个字符。
- (): 分组，可以捕获匹配到的子字符串。
- ^: 匹配字符串的开头。
- $: 匹配字符串的结尾。
- d: 匹配任何数字字符（等同于 [0-9]）。
- w: 匹配任何字母、数字或下划线字符（等同于 [a-zA-Z0-9_]）。
- s: 匹配任何空白字符。
- ：转义字符，用于匹配特殊字符本身，如 . 匹配点号。

re.match(pattern, string): 从字符串的开头匹配模式。如果匹配成功，返回一个匹配对象；否则返回 None。
re.search(pattern, string): 在整个字符串中搜索匹配模式的第一个位置。如果匹配成功，返回一个匹配对象；否则返回 None。

import re

text = "filename_2023-10-26.jpg"
pattern = r"(d{4}-d{2}-d{2})" # 匹配 'YYYY-MM-DD' 格式的日期

match = re.search(pattern, text)
if match:
    print(f"找到日期：{match.group(1)}") # group(1) 获取第一个捕获组的内容
else:
    print("未找到日期。")

# re.match 无法匹配，因为日期不在字符串开头
match_start = re.match(pattern, text)
print(f"re.match 结果：{match_start}") # 输出 None

re.sub(pattern, repl, string, count=0, flags=0) 是批量重命名中最常用的函数。它将字符串中所有匹配 pattern 的部分替换为 repl。repl 可以是字符串，也可以是一个函数。

import re

old_filename = "project_report (copy) - final.docx"

# 场景一：移除文件名中的 "(copy)"
new_filename_1 = re.sub(r"s*(copy)", "", old_filename)
print(f"移除'(copy)'：{new_filename_1}")

# 场景二：将空格替换为下划线
new_filename_2 = re.sub(r"s+", "_", old_filename)
print(f"替换空格为下划线：{new_filename_2}")

# 场景三：使用捕获组重新组织文件名
# 假设文件名是 'Report_ProjectA_2023-10-26.pdf'，我们想改成 '2023-10-26_ProjectA_Report.pdf'
filename_with_date = "Report_ProjectA_2023-10-26.pdf"
# 模式：(.*?)_(.*?)_(d{4}-d{2}-d{2})(.pdf)
# 捕获组 1: Report
# 捕获组 2: ProjectA
# 捕获组 3: 2023-10-26
# 捕获组 4: .pdf
new_filename_3 = re.sub(r"(.*?)_(.*?)_(d{4}-d{2}-d{2})(.pdf)", r"3_2_14", filename_with_date)
print(f"重组文件名：{new_filename_3}")

现在，我们将 os 模块和 re 模块结合起来，解决一些常见的批量重命名场景。

前提条件：创建一个测试目录 test_files，并在其中创建一些测试文件，例如：

My_Photo_20231026_001.jpg
My_Photo_20231026_002.png
document-final-v2.docx
old_report_2022-01-15.pdf
temp_file_to_delete.txt
my_project_v1.0.txt
my_project_v1.1.txt

# 确保 test_files 目录存在
test_dir = "test_files"
if not os.path.exists(test_dir):
    os.makedirs(test_dir)

# 创建一些测试文件
test_files_to_create = [
    "My_Photo_20231026_001.jpg",
    "My_Photo_20231026_002.png",
    "document-final-v2.docx",
    "old_report_2022-01-15.pdf",
    "temp_file_to_delete.txt",
    "my_project_v1.0.txt",
    "my_project_v1.1.txt",
    "My_Photo_20231027_001 (copy).jpg" # 额外增加一个带 '(copy)' 的文件
]

for fname in test_files_to_create:
    with open(os.path.join(test_dir, fname), 'w') as f:
        f.write(f"This is content for {fname}n")

print(f"已在'{test_dir}'目录创建测试文件。")

假设我们想将 test_files 目录下所有的 .jpg 文件名加上前缀 New_。

import os

target_directory = "test_files"
prefix = "New_"

for filename in os.listdir(target_directory):
    if filename.endswith(".jpg"): # 只处理 JPG 文件
        old_filepath = os.path.join(target_directory, filename)
        new_filename = prefix + filename
        new_filepath = os.path.join(target_directory, new_filename)

        print(f"将'{filename}'重命名为'{new_filename}'")
        # os.rename(old_filepath, new_filepath) # 实际执行重命名

安全提示：在实际运行 os.rename() 之前，强烈建议先进行“干运行”（Dry Run），即只打印出旧文件名和新文件名，不实际执行重命名操作，以确保重命名逻辑符合预期。

假设有文件 My_Photo_20231027_001 (copy).jpg，我们想将其改为 20231027_My_Photo_001.jpg。

import os
import re

target_directory = "test_files"

for filename in os.listdir(target_directory):
    # 模式：匹配 'My_Photo_日期_序号 (copy). 扩展名' 或 'My_Photo_日期_序号. 扩展名'
    # 捕获组 1：My_Photo_
    # 捕获组 2：日期 (YYYYMMDD)
    # 捕获组 3：_序号
    # 捕获组 4：(copy) - 可选
    # 捕获组 5：. 扩展名
    match = re.match(r"(My_Photo_)((d{8})_(d{3}))(s*(copy))?(..+)", filename)

    if match:
        original_prefix = match.group(1) # My_Photo_
        date_seq_part = match.group(2)   # 20231027_001
        date_str = match.group(3)        # 20231027
        file_extension = match.group(6)  # .jpg

        # 新文件名格式：日期_My_Photo_序号. 扩展名
        new_filename = f"{date_str}_{original_prefix}{date_seq_part.split('_')[1]}{file_extension}"

        old_filepath = os.path.join(target_directory, filename)
        new_filepath = os.path.join(target_directory, new_filename)

        print(f"将'{filename}'重命名为'{new_filename}'")
        # os.rename(old_filepath, new_filepath) # 实际执行重命名

这个例子稍微复杂，它利用了正则表达式的捕获组，提取文件名中的日期和序号，然后重新组织。

假设我们想把所有文件名中的 v 后面跟着数字的模式（如 v1.0, v2）替换为 _version_，并删除文件名中所有的 temp_ 前缀。

import os
import re

target_directory = "test_files"

for filename in os.listdir(target_directory):
    old_filename_base, file_extension = os.path.splitext(filename)

    # 1. 替换 'v' 后面跟着数字的模式
    # 正则表达式 r"v(d+.?d*)" 匹配 'v' 后跟一个或多个数字，可能带一个点和更多数字
    # r"_version_1" 表示替换为 "_version_" 加上捕获组 1 的内容（即 v 后面跟着的数字）temp_filename = re.sub(r"v(d+.?d*)", r"_version_1", old_filename_base)

    # 2. 删除 'temp_' 前缀
    new_filename_base = re.sub(r"^temp_", "", temp_filename) # ^ 匹配字符串开头

    # 组合新文件名
    new_filename = new_filename_base + file_extension

    if new_filename != filename: # 只有文件名有变化才进行打印和重命名
        old_filepath = os.path.join(target_directory, filename)
        new_filepath = os.path.join(target_directory, new_filename)

        print(f"将'{filename}'重命名为'{new_filename}'")
        # os.rename(old_filepath, new_filepath) # 实际执行重命名

这个例子展示了如何链式地应用多个正则表达式替换来达到复杂重命名的目的。

干运行（Dry Run）：在执行任何批量重命名操作之前，务必先进行干运行。只打印出将要进行的更改，不实际修改文件。这能帮助你检查逻辑是否正确，避免不可逆的错误。
备份数据：在处理重要文件时，永远要先备份！这是最基本的安全措施。
错误处理：使用 try-except 块来捕获可能出现的错误，例如文件不存在 (FileNotFoundError)、权限不足 (PermissionError) 等，让脚本更加健壮。
递归操作：如果需要处理子目录中的文件，可以使用 os.walk() 函数来递归遍历目录树。但请务必谨慎，确保重命名逻辑不会对不应处理的文件产生影响。
文件名冲突：在重命名时，如果新文件名已经存在，os.rename() 会抛出 FileExistsError 或直接覆盖（取决于操作系统和具体情况）。在设计新文件名时，应考虑避免冲突，例如添加时间戳或递增序号。