Python 文件路径操作进阶：告别 os.path 混乱，拥抱 pathlib 的优雅与高效

100次阅读

共计 6691 个字符，预计需要花费 17 分钟才能阅读完成。

刚接手一个历史项目时，我发现文件路径操作部分充斥着 os.path.join() 和各种字符串拼接，代码可读性很差不说，在不同操作系统上跑起来还容易因为路径分隔符问题报错。我为此踩了不少坑，花时间才整理出用 pathlib 的最佳实践。今天，咱们就来聊聊 pathlib 这个“神器”，帮你彻底告别文件路径的“野蛮生长”，迈向更优雅、更 Pythonic 的路径管理之道。

pathlib 的核心是 Path 对象。它封装了文件系统路径的所有操作，并且是 面向对象 的，这与 os.path 模块的函数式风格截然不同。你只需要将路径字符串传给 Path 构造函数，就能得到一个强大的 Path 对象。

我平时用 pathlib 的习惯是，无论当前路径、相对路径还是绝对路径，都统一用 Path 对象来表示。这能确保路径操作的平台一致性。

from pathlib import Path

# 获取当前工作目录的 Path 对象
current_dir = Path('.')
print(f"当前目录: {current_dir.absolute()}") # .absolute() 可以获取绝对路径

# 创建一个指向特定文件的 Path 对象
# 方式一：直接传递完整路径
file_path_abs = Path('/Users/your_name/documents/report.txt') # 示例，请替换为实际路径
print(f"绝对路径文件: {file_path_abs}")

# 方式二：使用 / 运算符进行路径拼接（亲测有效，非常直观！）# 推荐这种方式，它比 os.path.join 看起来更自然，并且自动处理平台分隔符
base_dir = Path('/Users/your_name/projects')
data_file = base_dir / 'data' / 'source.csv'
print(f"拼接后的文件路径: {data_file}")
# 刚开始学的时候总习惯用 os.path.join，结果路径里有中文时，有时会碰到编码问题，Path 对象直接解决了这个心头大患。# 小提醒：Path 对象自动处理操作系统的路径分隔符，无论是 Windows 的 `` 还是 Linux/macOS 的 `/`，你都可以统一用 `/` 来拼接，`pathlib` 会在内部帮你转换。这大大降低了跨平台开发的复杂度。

有了 Path 对象，文件和目录的创建、删除、移动、复制等操作都变得异常简单和直观。

import shutil # 用于复制和移动，pathlib 不直接提供这些高级操作

# 定义一个测试目录和文件
test_dir = Path('my_temp_dir')
test_file = test_dir / 'my_test_file.txt'
another_file = test_dir / 'another_file.log'

# 1. 创建目录 (mkdir)
if not test_dir.exists():
    # parents=True 会创建所有不存在的父目录，exist_ok=True 允许目录已存在而不报错
    test_dir.mkdir(parents=True, exist_ok=True) 
    print(f"目录'{test_dir}'已创建。")
else:
    print(f"目录'{test_dir}'已存在。")
# 之前做爬虫时，写日志文件前不判断目录是否存在，程序跑着跑着就崩溃了，加上 parents=True 和 exist_ok=True 后，世界清净了。# 2. 创建文件并写入内容 (touch, write_text)
if not test_file.exists():
    test_file.touch() # 创建一个空文件，如果文件已存在则不改变
    test_file.write_text("Hello, pathlib! This is a test.n")
    print(f"文件'{test_file}'已创建并写入内容。")

# 3. 读取文件内容 (read_text, read_bytes)
try:
    content = test_file.read_text(encoding='utf-8')
    print(f"文件'{test_file}'的内容:n{content}")
except FileNotFoundError:
    print(f"文件'{test_file}'不存在。")
# 这里加 try-except 是因为之前爬取豆瓣时遇到过空值报错，踩过坑才知道要防一手，文件读写也可能因为权限或文件不存在而失败。# 4. 判断文件 / 目录类型和是否存在 (exists, is_file, is_dir)
print(f"'{test_dir}' 是否存在？{test_dir.exists()}")
print(f"'{test_dir}' 是一个目录吗？{test_dir.is_dir()}")
print(f"'{test_file}' 是一个文件吗？{test_file.is_file()}")

# 5. 重命名文件 / 目录 (rename)
new_test_file = test_dir / 'renamed_file.txt'
if test_file.exists():
    test_file.rename(new_test_file)
    print(f"文件已从'{test_file.name}'重命名为'{new_test_file.name}'。")

# 6. 移动 / 复制文件 (借助 shutil 库)
# pathlib 本身没有直接的 copy/move 方法，但可以很方便地和 shutil 配合使用
# 创建另一个文件进行测试
another_file.write_text("This is another log entry.")
target_dir = Path('my_backup_dir')
target_dir.mkdir(exist_ok=True)
if another_file.exists():
    shutil.copy(another_file, target_dir / another_file.name)
    print(f"文件'{another_file.name}'已复制到'{target_dir}'。")

# 7. 删除文件 / 目录 (unlink, rmdir)
# 注意：unlink() 只能删除文件，rmdir() 只能删除空目录
if new_test_file.exists():
    new_test_file.unlink()
    print(f"文件'{new_test_file}'已删除。")
if another_file.exists():
    another_file.unlink() # 删除原文件
    print(f"文件'{another_file}'已删除。")

if test_dir.exists():
    # 删除非空目录需要 shutil.rmtree
    # test_dir.rmdir() # 如果目录不为空会报错
    shutil.rmtree(test_dir) 
    print(f"目录'{test_dir}'及其内容已删除。")
if target_dir.exists():
    shutil.rmtree(target_dir)
    print(f"目录'{target_dir}'及其内容已删除。")

# 小提醒：当删除非空目录时，Path.rmdir() 会抛出 OSError。这时需要使用 shutil.rmtree() 来递归删除整个目录树。pathlib 的设计哲学是让你明确每一步操作，避免误删。

Path 对象不仅能操作文件，更能以面向对象的方式，轻松获取路径的各个组成部分，以及遍历目录下的文件和子目录。

# 假设我们有一个这样的目录结构：# my_data/
# ├── reports/
# │   ├── q1_report.pdf
# │   └── q2_data.xlsx
# ├── users.json
# └── temp.log
Path('my_data/reports').mkdir(parents=True, exist_ok=True)
Path('my_data/reports/q1_report.pdf').touch()
Path('my_data/reports/q2_data.xlsx').touch()
Path('my_data/users.json').touch()
Path('my_data/temp.log').touch()

target_path = Path('my_data/reports/q1_report.pdf')

# 1. 获取路径组成部分
print(f"n 原始路径: {target_path}")
print(f"文件名 (不含路径): {target_path.name}") # q1_report.pdf
print(f"文件名 (不含后缀): {target_path.stem}") # q1_report
print(f"文件后缀: {target_path.suffix}") # .pdf
print(f"所有后缀 (例如 .tar.gz): {target_path.suffixes}") # ['.pdf']
print(f"父目录: {target_path.parent}") # my_data/reports
print(f"祖先目录: {list(target_path.parents)}") # [Path('my_data/reports'), Path('my_data')]
# 以前用 os.listdir 再各种字符串操作提取文件名，写起来麻烦不说，还容易出错，pathlib 几个属性搞定，节省了大量调试时间。# 2. 遍历目录内容 (iterdir, glob, rglob)

# iterdir(): 遍历当前 Path 对象代表的目录下的所有文件和子目录（非递归）print(f"n 遍历'{Path('my_data')}'目录下的内容:")
for item in Path('my_data').iterdir():
    print(f"{item.name} ({' 目录 'if item.is_dir() else' 文件 '})")

# glob(): 匹配指定模式的文件或目录（非递归）# 查找 my_data 目录下所有的 .json 文件
print(f"n 使用 glob 查找'{Path('my_data')}'目录下的所有 .json 文件:")
for json_file in Path('my_data').glob('*.json'):
    print(f"找到: {json_file.name}")

# rglob(): 递归匹配指定模式的文件或目录（递归）# 查找 my_data 及其子目录下所有的 .xlsx 文件
print(f"n 使用 rglob 查找'{Path('my_data')}'及其子目录下的所有 .xlsx 文件:")
for excel_file in Path('my_data').rglob('*.xlsx'):
    print(f"找到: {excel_file.relative_to(Path('my_data'))}") # .relative_to() 可以显示相对路径，更清晰
# 我在处理大量日志文件时，rglob 真是神器，不用自己写递归逻辑，一行代码搞定文件查找。# 清理测试目录
shutil.rmtree('my_data')

# 小提醒：.glob() 和 .rglob() 都是非常强大的文件查找工具。glob 适用于在当前目录下查找特定类型的文件，而 rglob 则是遍历整个子目录树，能大大简化文件批量处理的逻辑。理解它们的区别，能帮你写出更简洁高效的代码。

即使 pathlib 已经足够优秀，但刚接触时，大家还是容易犯一些错误。我给大家总结了几个我或同事们常犯的误区：

误区一：Path 对象和字符串混用
- 问题描述： pathlib.Path 对象在大多数情况下可以替代字符串，但并非所有旧的库或函数都支持 Path 对象，它们可能只接受字符串路径。
- 我的经验： 我刚开始全面使用 pathlib 时，有几次在调用一些比较老的第三方库或 os 模块的一些特定函数（如 os.chdir()）时，直接传入 Path 对象就报错了。
- 解决方案： 当需要将 Path 对象传递给只接受字符串的函数时，使用 str(path_obj) 或 path_obj.as_posix()（如果是跨平台场景）将其显式转换为字符串。
```
import os
from pathlib import Path

p = Path('./my_temp_dir')
p.mkdir(exist_ok=True)
# os.chdir(p) # 这行代码会报错，因为 os.chdir 期望一个字符串
os.chdir(str(p)) # 正确做法
print(f"当前工作目录已切换到: {os.getcwd()}")
os.chdir('..') # 切换回去
shutil.rmtree(p)
```
误区二：相对路径的陷阱——脚本执行目录 vs. 脚本文件所在目录
- 问题描述： Path('.') 和 Path('some_file.txt') 创建的相对路径是相对于 当前 Python 脚本的执行目录，而不是脚本文件本身的目录。这在不同的执行环境下可能会导致找不到文件。
- 我的经验： 有一次我写了个工具脚本，里面用到相对路径加载配置文件，在 PyCharm 里运行没问题，但部署到服务器上用 python my_script.py 命令执行时，由于服务器上的执行目录不是脚本所在目录，就一直报 FileNotFoundError。
- 解决方案： 如果你需要获取相对于当前脚本文件本身的路径，应该使用 Path(__file__).parent 来获取脚本所在的目录，然后以此为基础进行路径拼接。
```
# 假设当前脚本文件是 /project/scripts/my_script.py
# 并且你在 /project 目录下执行 python scripts/my_script.py

from pathlib import Path
import os

# 获取当前脚本文件所在的目录
script_dir = Path(__file__).parent.resolve() # .resolve() 获取规范化的绝对路径
print(f"脚本文件所在目录: {script_dir}")

# 基于脚本目录找到配置文件
config_file = script_dir / '..' / 'config' / 'settings.ini'
print(f"配置文件路径: {config_file.resolve()}")
# 如果直接用 Path('config/settings.ini')，可能会找不到
```
误区三：忘记处理文件操作可能遇到的异常
- 问题描述： 文件操作（如读写、创建、删除）可能因为各种原因失败，例如权限不足、磁盘空间已满、文件不存在、文件被占用等。若不处理这些异常，程序就会崩溃。
- 我的经验： 我刚开始写文件读写逻辑时，总是直接 file.read_text() 或 file.write_text()，结果在测试环境中因为文件权限问题或文件被其他进程占用，程序频繁崩溃。调试了好久才意识到要加 try-except。
- 解决方案： 始终将关键的文件操作代码包裹在 try-except 块中，针对可能发生的 FileNotFoundError、PermissionError、OSError 等异常进行捕获和处理。
```
from pathlib import Path

non_existent_file = Path('non_existent.txt')
try:
    content = non_existent_file.read_text()
    print(content)
except FileNotFoundError:
    print(f"错误：文件'{non_existent_file.name}'不存在，无法读取。")
except PermissionError:
    print(f"错误：没有权限访问文件'{non_existent_file.name}'。")
except OSError as e:
    print(f"发生操作系统错误: {e}")
```