Python 批量处理文件：路径操作与正则表达式实现高效重命名

84次阅读

共计 8220 个字符，预计需要花费 21 分钟才能阅读完成。

在数字时代，我们每天都会与大量文件打交道。无论是照片、文档、代码还是数据报告，文件管理都是一项耗时且重复的任务。尤其是当需要对数百甚至数千个文件进行统一的命名规范化时，手动操作无疑是一场噩梦。想象一下，你需要将一个文件夹中所有带有“old”前缀的文件改为“new”，或者将日期格式从“YYYY-MM-DD”调整为“YYYYMMDD”——这简直是体力活的极限挑战。

幸运的是，作为一名专业的程序员或数据分析师，我们有更智能、更高效的解决方案：使用 Python。Python 以其简洁的语法和强大的库生态系统，成为自动化文件处理的首选工具。本文将深入探讨如何结合 Python 的路径操作模块（os 和 pathlib）与正则表达式（re 模块），实现复杂而强大的文件批量重命名功能，彻底告别繁琐的手动操作，让你的文件管理效率翻倍。

Python 在文件处理方面具备多项优势：

简洁易读： Python 代码逻辑清晰，即使是初学者也能快速上手。
跨平台兼容： Python 脚本可以在 Windows、macOS 和 Linux 等多种操作系统上运行，无需修改。
强大的标准库： Python 内置的 os、pathlib 和 re 等模块提供了丰富的工具，足以应对各种文件操作需求。
自动化能力： 结合循环、条件判断和函数，Python 可以构建出高度定制化的自动化脚本，满足复杂的业务逻辑。

接下来，我们将详细介绍实现文件批量重命名的两大核心工具。

核心工具一：路径操作（`os` 与 `pathlib` 模块）

在 Python 中，处理文件和目录路径是文件操作的基础。os 模块是 Python 的标准库，提供了与操作系统交互的功能，包括文件和目录操作。而 pathlib 模块是 Python 3.4 引入的新模块，它以面向对象的方式提供了更简洁、更直观的路径操作接口。在现代 Python 编程中，pathlib 是更推荐的选择。

`os` 模块概览

os 模块提供了许多函数用于与操作系统进行交互，包括：

os.listdir(path): 返回指定路径下的所有文件和目录名列表。
os.path.join(path, *paths): 智能地拼接路径，自动处理不同操作系统路径分隔符的差异。
os.path.isfile(path): 判断给定路径是否为文件。
os.path.isdir(path): 判断给定路径是否为目录。
os.rename(old_path, new_path): 重命名文件或目录。

示例：使用 os 模块列出文件

import os

def list_files_os(directory):
    file_list = []
    for entry in os.listdir(directory):
        full_path = os.path.join(directory, entry)
        if os.path.isfile(full_path):
            file_list.append(entry)
    return file_list

# 假设当前目录下有一个名为 'my_files' 的文件夹
# os.makedirs('my_files', exist_ok=True)
# with open(os.path.join('my_files', 'document_v1.txt'), 'w') as f: f.write('test')
# with open(os.path.join('my_files', 'image_001.jpg'), 'w') as f: f.write('test')

# files = list_files_os('my_files')
# print("使用 os.listdir 列出的文件：", files)

`pathlib` 模块：更现代的路径操作

pathlib 模块将文件系统路径抽象为 Path 对象，使得路径操作更加直观和面向对象。

Path 对象的常用属性和方法：

Path(path_string): 创建一个 Path 对象。
Path.iterdir(): 遍历目录下的所有文件和子目录，返回 Path 对象。
Path.is_file(): 判断是否为文件。
Path.is_dir(): 判断是否为目录。
Path.stem: 不带扩展名的文件名。
Path.suffix: 文件扩展名。
Path.name: 文件名（包括扩展名）。
Path.parent: 父目录。
Path.joinpath(*other) 或 / 运算符: 拼接路径。
Path.rename(new_path): 重命名文件或目录。

示例：使用 pathlib 模块列出文件

from pathlib import Path

def list_files_pathlib(directory):
    file_list = []
    directory_path = Path(directory)
    if not directory_path.is_dir():
        print(f"错误: 目录'{directory}'不存在或不是一个目录。")
        return []

    for entry in directory_path.iterdir():
        if entry.is_file():
            file_list.append(entry.name)
    return file_list

# files = list_files_pathlib('my_files')
# print("使用 pathlib.Path 列出的文件：", files)

相比 os 模块，pathlib 模块在处理路径时更加优雅和安全，推荐在新的项目中优先使用 pathlib。

核心工具二：正则表达式（`re` 模块）

正则表达式（Regular Expression，简称 Regex 或 Regexp）是一种强大的文本模式匹配工具。它用简洁的字符序列来定义一个搜索模式，能够高效地查找、替换、提取符合特定模式的字符串。在批量重命名文件中，正则表达式的威力体现在可以匹配和操作那些具有复杂、动态或不规则命名模式的文件。

字面字符： 大部分字符（如 a, B, 1, -）都匹配它们自身。
元字符（Metacharacters）： 具有特殊含义的字符。
- .：匹配除换行符以外的任何单个字符。
- *：匹配前一个字符零次或多次。
- +：匹配前一个字符一次或多次。
- ?：匹配前一个字符零次或一次。
- []：匹配方括号中的任意一个字符（如 [abc] 匹配 ‘a’, ‘b’, ‘c’）。
- -：在 [] 中表示范围（如 [a-z] 匹配所有小写字母）。
- [^]：在 [] 中表示非（如 [^0-9] 匹配所有非数字字符）。
- ()：捕获组，用于提取匹配到的子字符串。
- |：逻辑或，匹配 | 前或后的模式。
- ^：匹配字符串的开始。
- $：匹配字符串的结束。
- ：转义字符，将元字符转义为字面字符，或与特定字符组合表示特殊序列。
特殊序列（Special Sequences）：
- d：匹配任何数字（等同于 [0-9]）。
- D：匹配任何非数字字符。
- w：匹配任何单词字符（字母、数字、下划线，等同于 [a-zA-Z0-9_]）。
- W：匹配任何非单词字符。
- s：匹配任何空白字符（空格、制表符、换行符等）。
- S：匹配任何非空白字符。

`re` 模块常用函数

re.search(pattern, string): 扫描整个字符串查找第一个匹配项，返回一个匹配对象（Match Object），如果没有找到则返回 None。
re.match(pattern, string): 只在字符串的开头进行匹配，返回匹配对象。
re.findall(pattern, string): 查找字符串中所有非重叠的匹配项，以列表形式返回所有匹配到的字符串。
re.sub(pattern, repl, string, count=0): 替换字符串中所有匹配 pattern 的部分为 repl。repl 可以是字符串或函数。count 指定替换的最大次数。
re.compile(pattern): 编译正则表达式模式，提高重复使用时的效率。

示例：使用 re.sub 进行替换

import re

text = "filename_2023-10-26_report.txt"

# 替换日期格式从 YYYY-MM-DD 到 YYYYMMDD
# 使用捕获组提取年、月、日
new_text = re.sub(r'(d{4})-(d{2})-(d{2})', r'123', text)
print(f"原始字符串: {text}")
print(f"替换后字符串: {new_text}") # 输出: filename_20231026_report.txt

# 替换所有非字母数字和下划线的字符为空格
text_with_special = "my-document (draft).pdf"
cleaned_text = re.sub(r'[^ws.]', '_', text_with_special) # 保留句点和空格
print(f"原始特殊字符字符串: {text_with_special}")
print(f"清理后特殊字符字符串: {cleaned_text}") # 输出: my_document _draft_.pdf

现在我们将结合 pathlib 和 re 模块，构建一个实用的文件批量重命名脚本。

为了安全起见，我们建议在测试时创建一个临时目录和一些模拟文件。

from pathlib import Path
import os
import re

# 定义要操作的目录
target_directory = Path('test_files')

# 如果目录不存在，则创建
if not target_directory.exists():
    target_directory.mkdir()

# 创建一些模拟文件
file_names_to_create = [
    "IMG_2023_10_26_portrait.jpg",
    "document_final_v1.docx",
    "report (draft) oct.pdf",
    "old_script_v2.py",
    "MyData-2023-09-15.csv",
    "IMG_2023_10_27_landscape.png",
    "document_final_v2.docx",
    "report (final) nov.pdf",
    "archive.zip",
    "old_backup.tar.gz"
]

for name in file_names_to_create:
    (target_directory / name).touch() # touch() 创建空文件
    print(f"已创建模拟文件: {target_directory / name}")

print("n 模拟文件环境准备完毕，开始重命名操作...n")

首先，我们需要获取目标目录下的所有文件。

def get_files_in_directory(directory_path: Path):
    """获取指定目录下所有文件的 Path 对象列表。"""
    files = []
    if not directory_path.is_dir():
        print(f"错误: 目录'{directory_path}'不存在或不是一个目录。")
        return files

    for item in directory_path.iterdir():
        if item.is_file():
            files.append(item)
    return files

all_files = get_files_in_directory(target_directory)
print("目录中的文件:")
for f in all_files:
    print(f.name)
print("-" * 30)

接下来，我们将定义不同的重命名场景，并结合正则表达式来实现。

重要提示：在实际执行重命名之前，务必进行“模拟运行（Dry Run）”，检查新文件名是否符合预期。

def perform_rename(original_path: Path, new_name: str, dry_run=True):
    """
    执行文件重命名操作。:param original_path: 原始文件路径 (Path 对象)。:param new_name: 新的文件名 (不含路径)。:param dry_run: 是否进行模拟运行 (True 为模拟，False 为实际重命名)。"""
    new_path = original_path.with_name(new_name)
    if original_path == new_path:
        print(f"跳过: {original_path.name} -> (文件名未改变)")
        return

    if dry_run:
        print(f"模拟重命名:'{original_path.name}'->'{new_path.name}'")
    else:
        try:
            original_path.rename(new_path)
            print(f"已重命名:'{original_path.name}'->'{new_path.name}'")
        except OSError as e:
            print(f"错误: 无法重命名'{original_path.name}'->'{new_path.name}'. 错误信息: {e}")

比如，给所有 jpg 图片添加 PHOTO_ 前缀。

# 场景 1: 给所有 .jpg 文件添加前缀
print("n--- 场景 1: 添加前缀 ---")
for file_path in all_files:
    if file_path.suffix == '.jpg':
        new_name = f"PHOTO_{file_path.name}"
        perform_rename(file_path, new_name, dry_run=True)
# perform_rename(file_path, new_name, dry_run=False) # 实际执行时取消注释

将文件名中的 _v1 替换为 _final。

# 场景 2: 替换文件名中的特定字符串
print("n--- 场景 2: 替换特定字符串 ---")
for file_path in all_files:
    # 只处理 docx 文件
    if file_path.suffix == '.docx' and '_v1' in file_path.stem:
        new_stem = file_path.stem.replace('_v1', '_final')
        new_name = f"{new_stem}{file_path.suffix}"
        perform_rename(file_path, new_name, dry_run=True)
# perform_rename(file_path, new_name, dry_run=False) # 实际执行时取消注释

这是正则表达式最强大的应用之一。假设我们有以下格式的文件名：MyData-YYYY-MM-DD.csv，我们想重命名为 YYYYMMDD_MyData.csv。

# 场景 3: 提取信息并重组文件名 (正则表达式)
print("n--- 场景 3: 提取信息并重组文件名 ---")
for file_path in all_files:
    match = re.search(r'(.+)-(d{4})-(d{2})-(d{2})(.csv)$', file_path.name)
    if match:
        base_name = match.group(1) # 例如 'MyData'
        year = match.group(2)
        month = match.group(3)
        day = match.group(4)
        suffix = match.group(5) # .csv

        new_name = f"{year}{month}{day}_{base_name}{suffix}"
        perform_rename(file_path, new_name, dry_run=True)
# perform_rename(file_path, new_name, dry_run=False) # 实际执行时取消注释

这里 re.search 查找匹配模式，并通过 match.group(index) 提取括号中捕获的内容。r'd{4}' 匹配四位数字，r'(.+)' 匹配任意字符一次或多次并捕获。

移除文件名中的括号和多余空格，并替换为下划线。例如 report (draft) oct.pdf 变为 report_draft_oct.pdf。

# 场景 4: 清理文件名中的不规范字符
print("n--- 场景 4: 清理文件名中的不规范字符 ---")
for file_path in all_files:
    # 匹配文件名中除了字母、数字、下划线、点、空格之外的字符，以及括号
    # 或者匹配多个连续的空格

    # 确保只处理报告文件
    if 'report' in file_path.stem:
        cleaned_stem = re.sub(r'[()]', '', file_path.stem) # 移除括号
        cleaned_stem = re.sub(r's+', '_', cleaned_stem) # 将一个或多个空格替换为下划线
        cleaned_stem = re.sub(r'__+', '_', cleaned_stem) # 移除连续的下划线
        cleaned_stem = cleaned_stem.strip('_') # 移除开头和结尾的下划线

        new_name = f"{cleaned_stem}{file_path.suffix}"
        perform_rename(file_path, new_name, dry_run=True)
# perform_rename(file_path, new_name, dry_run=False) # 实际执行时取消注释

在完成测试后，可以删除创建的模拟文件和目录。

# print("n--- 清理模拟文件环境 ---")
# if target_directory.exists():
#     for item in target_directory.iterdir():
#         if item.is_file():
#             item.unlink() # 删除文件
#             print(f"已删除文件: {item.name}")
#     target_directory.rmdir() # 删除空目录
#     print(f"已删除目录: {target_directory.name}")

在进行任何批量文件操作时，安全性是首要考虑的。

模拟运行（Dry Run）： 这是最重要的安全措施。在执行实际重命名之前，始终使用 dry_run=True 模式运行脚本，只打印出将要执行的操作，而不实际修改文件。这能让你预览所有更改，避免意外。
备份： 在对重要文件执行任何批量操作之前，务必进行完整的备份。这是防止数据丢失的最后一道防线。
错误处理： 使用 try-except 块来捕获可能发生的错误，如文件不存在、权限不足、新旧文件名相同等。这样可以使脚本更加健壮。
日志记录： 记录每次重命名操作的详细信息（原始文件名、新文件名、时间、是否成功等）。这对于回溯问题或审计操作非常有帮助。
清晰的变量名和注释： 编写易于理解的代码，使用描述性的变量名，并为复杂的逻辑添加注释，方便日后维护。
考虑跨平台兼容性： pathlib 模块本身就具有很好的跨平台兼容性，因为它抽象了底层操作系统的路径表示。

递归处理子目录： 如果需要重命名子目录中的文件，可以修改 get_files_in_directory 函数，使其递归遍历所有子目录。
命令行参数化： 使用 argparse 模块，可以让你的脚本接受命令行参数，例如指定目标目录、重命名模式、是否进行模拟运行等，增加脚本的灵活性。
集成到 GUI 或 Web 应用： 对于非技术用户，可以将批量重命名逻辑封装到简单的图形用户界面（GUI）或 Web 应用中，提供更友好的交互体验。

通过本文的学习，你应该已经掌握了如何利用 Python 的 pathlib 模块进行高效的路径操作，以及如何运用强大的正则表达式 re 模块来匹配和重构复杂的文件名。从简单的添加前后缀到复杂的模式匹配和信息提取，Python 为文件批量重命名提供了无与伦比的灵活性和控制力。

记住，自动化不仅仅是为了节省时间，更是为了减少人为错误，提高工作质量。从现在开始，告别手动重命名的繁琐，拥抱 Python 带来的高效和便捷吧！多加练习，尝试不同的正则表达式模式，你将成为文件管理的大师。

正文完

Python 批量重命名文件处理正则表达式自动化

发表至： Python

2025-12-05

0

Python 文件路径操作的艺术：告别 os.path，拥抱 pathlib 的优雅之道

Python 实战：告别手动遍历，用 JSONPath 精准提取复杂 JSON 数据

告别零散！Flask RESTful API 完整项目结构与多层权限控制实践

Python 基础入门 Day05

Python基础入门 Day122 多任务协作：asyncio 的队列（Queue）实现生产者与消费者模型

Python 批量处理文件：路径操作与正则表达式实现高效重命名

为何选择 Python 进行文件批量处理？

核心工具一：路径操作（`os` 与 `pathlib` 模块）

`os` 模块概览

`pathlib` 模块：更现代的路径操作

核心工具二：正则表达式（`re` 模块）

正则表达式基础

`re` 模块常用函数

实战演练：Python 批量重命名文件

准备工作：模拟文件环境

步骤一：获取文件列表

步骤二：定义重命名规则与执行

场景 1：添加前缀或后缀

场景 2：替换特定字符串

场景 3：使用正则表达式提取信息并重组文件名

场景 4：清理文件名中的不规范字符

清理模拟文件环境 (可选)

安全与最佳实践

进阶思考

结语

Playwright page.goto(url) 详解：深入解析网页导航的最佳实践

如何在安卓 Termux 上安装 qBittorrent

深度解析：基于 PyTorch 实现图像分类——从数据集构建到模型训练部署全攻略

Python 基础入门 Day30

如何使用Python实现高效的数据筛选和处理：一步步带你掌握列表解析与生成器

如何在Mac上高效使用Terminal：5个实用命令

如何用 Python 批量重命名文件：一步一步的教程

如何用Python爬虫自动化下载网页数据：从入门到精通

Mac 文件管理技巧：如何利用 Spotlight 快速查找文件

Python 性能优化：提升代码执行效率的五个技巧

Python 批量处理文件：路径操作与正则表达式实现高效重命名

为何选择 Python 进行文件批量处理？

核心工具一：路径操作（os 与 pathlib 模块）

os 模块概览

pathlib 模块：更现代的路径操作

核心工具二：正则表达式（re 模块）

正则表达式基础

re 模块常用函数

实战演练：Python 批量重命名文件

准备工作：模拟文件环境

步骤一：获取文件列表

步骤二：定义重命名规则与执行

场景 1：添加前缀或后缀

场景 2：替换特定字符串

场景 3：使用正则表达式提取信息并重组文件名

场景 4：清理文件名中的不规范字符

清理模拟文件环境 (可选)

安全与最佳实践

进阶思考

结语

核心工具一：路径操作（`os` 与 `pathlib` 模块）

`os` 模块概览

`pathlib` 模块：更现代的路径操作

核心工具二：正则表达式（`re` 模块）

`re` 模块常用函数