Python 高效处理复杂 JSON 数据：`jsonpath` 库实战指南

103次阅读

共计 6415 个字符，预计需要花费 17 分钟才能阅读完成。

上周帮同事调试一个后端接口时，看到他还在用层层 for 循环和 if 判断从一个复杂的 JSON 数据中取值，不仅代码写得又长又容易出错，而且调试起来也特别费劲。当时我就想，这活儿要是用 jsonpath 库来处理，效率至少能提升一半，代码可读性也能大大增强。今天，咱们就来聊聊 jsonpath，并通过实战操作，看看它是怎么优雅地解决这个问题的。

传统 JSON 处理的痛点：为什么我们需要 `jsonpath`？

在深入 jsonpath 之前，咱们先快速回顾一下，当面对结构复杂、嵌套层级深的 JSON 数据时，如果只用 Python 自带的 json 模块，通常会遇到哪些头疼的问题。

假设我们有一个这样的 JSON 数据，它包含了商店、书籍、自行车以及一些用户评论信息：

{
    "store": {
        "book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            },
            {
                "category": "fiction",
                "author": "Herman Melville",
                "title": "Moby Dick",
                "isbn": "0-553-21311-3",
                "price": 8.99
            },
            {
                "category": "fiction",
                "author": "J. R. R. Tolkien",
                "title": "The Lord of the Rings",
                "isbn": "0-395-19395-8",
                "price": 22.99
            }
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "customer_reviews": [
        {
            "id": 1,
            "product_id": "book_1",
            "rating": 5,
            "comment": "这是一本很棒的书！"
        },
        {
            "id": 2,
            "product_id": "bicycle_1",
            "rating": 4,
            "comment": "自行车质量不错，但颜色有点深。"
        }
    ]
}

如果我们要从中提取所有书的标题，或者找出所有价格低于 10 美元的书的作者，用传统的循环加条件判断，代码会是这样的：

import json

data_str = """{"store": {"book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            }
            // ... 省略其余书籍
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "customer_reviews": []}
"""
data = json.loads(data_str)

all_book_titles = []
if "store" in data and "book" in data["store"]:
    for book in data["store"]["book"]:
        if "title" in book:
            all_book_titles.append(book["title"])

print(f"所有书名 (传统方式): {all_book_titles}")

# 如果要找价格低于 10 美元的书的作者
cheap_book_authors = []
if "store" in data and "book" in data["store"]:
    for book in data["store"]["book"]:
        if "price" in book and book["price"] < 10:
            if "author" in book:
                cheap_book_authors.append(book["author"])

print(f"价格低于 10 美元的作者 (传统方式): {cheap_book_authors}")

可以看到，随着 JSON 结构层级的加深和提取条件的多样化，代码会变得非常冗长，并且需要大量的 if ... in ... 来判断键是否存在，否则稍不留神就会遇到 KeyError。我刚开始接触 Python 处理 JSON 时，就经常因为某个键缺失而导致程序崩溃，不得不加上一堆防御性判断，代码读起来像是在爬迷宫。

`jsonpath` 登场：像 XPath 一样查询 JSON

jsonpath 库提供了一种类似于 XPath 的语法，让我们能够通过简洁的路径表达式，从复杂的 JSON 数据中提取所需的值。它极大地简化了数据提取的逻辑，让代码更清晰、更健壮。

安装 jsonpath

首先，你需要安装 jsonpath 库。打开你的终端或命令行工具，输入以下命令：

pip install jsonpath

jsonpath 核心概念

jsonpath 的查询语法主要基于以下几个核心符号：

$: 代表根对象或根元素。
. 或 []: 用于访问子元素。例如 $.store.book 或 $['store']['book']。
..: 递归下降。查找所有匹配的名称，无论其深度如何。例如 $.store..author 会查找 store 下所有 author 字段。
*: 通配符。匹配所有子元素或所有索引。
[]: 数组下标或切片。例如 $.store.book[0] 访问第一个元素，$.store.book[0,1] 访问前两个，$.store.book[:2] 也是前两个。
?(): 谓词（筛选）表达式。用于过滤数组中的元素。例如 $.store.book[?(@.price < 10)] 会筛选出价格小于 10 的书籍。@ 代表当前元素。

3 步实操：用 `jsonpath` 提取数据

接下来，咱们就用 jsonpath 来解决刚才提到的 JSON 数据提取问题。

我们先从最简单的开始：提取所有书的标题。

import json
import jsonpath

data_str = """{"store": {"book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            },
            {
                "category": "fiction",
                "author": "Herman Melville",
                "title": "Moby Dick",
                "isbn": "0-553-21311-3",
                "price": 8.99
            },
            {
                "category": "fiction",
                "author": "J. R. R. Tolkien",
                "title": "The Lord of the Rings",
                "isbn": "0-395-19395-8",
                "price": 22.99
            }
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "customer_reviews": [
        {
            "id": 1,
            "product_id": "book_1",
            "rating": 5,
            "comment": "这是一本很棒的书！"
        },
        {
            "id": 2,
            "product_id": "bicycle_1",
            "rating": 4,
            "comment": "自行车质量不错，但颜色有点深。"
        }
    ]
}
"""
data = json.loads(data_str)

# 提取所有书的标题
# 路径解释：# $        -> 根元素
# .store   -> 访问 store 键
# .book    -> 访问 book 键（这是一个列表）# [*]      -> 访问列表中所有元素
# .title   -> 访问每个元素的 title 键
all_book_titles = jsonpath.jsonpath(data, '$.store.book[*].title')
print(f"所有书名 (jsonpath 方式): {all_book_titles}")

# 小提醒：jsonpath.jsonpath 函数总是返回一个列表，# 即使只匹配到一个结果或没有匹配到结果，它也会返回一个列表。# 我刚开始用的时候，就直接用 `result[0]`，结果遇到空列表时就报错了，# 后来才知道要先判断列表是否为空。# 比如你想取第一个书名：if all_book_titles:
    first_title = all_book_titles[0]
    print(f"第一个书名: {first_title}")

现在，我们来解决第二个问题：找出所有价格低于 10 美元的书的作者。这需要用到 jsonpath 的谓词过滤功能。

# 提取所有价格低于 10 美元的书的作者
# 路径解释：# $..book  -> 从根目录开始，递归查找所有名为“book”的键（无论深度）# [?(@.price < 10)] -> 谓词过滤，筛选出当前元素（@）的 price 属性小于 10 的书
# .author  -> 访问筛选出书籍的 author 键
cheap_book_authors = jsonpath.jsonpath(data, '$..book[?(@.price < 10)].author')
print(f"价格低于 10 美元的作者 (jsonpath 方式): {cheap_book_authors}")

# 小提醒：`..` (递归下降) 和 `?()` (谓词过滤) 是 `jsonpath` 中非常强大的组合。# 我之前在处理一个日志分析项目时，需要从海量的日志 JSON 中筛选出特定错误码且响应时间超过阈值的记录，# 用谓词过滤一下子就筛选出来了，比手写一堆循环和 if 判断清晰、高效多了。# 如果没有匹配项，`jsonpath.jsonpath` 同样会返回 `False` 或 `None`（取决于具体版本或参数，通常是 `False`）。# 所以在使用结果时，通常需要检查其真值。if not cheap_book_authors: # 或者 cheap_book_authors is False
    print("没有找到价格低于 10 美元的书籍。")

# 另外，我们也可以用它来提取特定分类的书籍信息，比如所有小说类的书名：fiction_book_titles = jsonpath.jsonpath(data, '$..book[?(@.category =="fiction")].title')
print(f"所有小说类书籍标题: {fiction_book_titles}")

在实际工作中，我们经常会遇到 JSON 结构不完全一致，或者某些键可能缺失的情况。jsonpath 在处理这种情况时，虽然本身不会抛出 KeyError，但如果路径不匹配，会返回 False 或空列表。结合 Python 的 try-except，能让代码更健壮。

假设我们要提取所有客户评论的 comment 字段。

# 提取所有客户评论的评论内容
# 路径解释：# $.customer_reviews -> 访问根目录下的 customer_reviews 列表
# [*]              -> 访问列表中所有评论对象
# .comment         -> 访问每个评论对象的 comment 键
all_comments = jsonpath.jsonpath(data, '$.customer_reviews[*].comment')
print(f"所有客户评论内容: {all_comments}")

# 小提醒：jsonpath 表达式如果没找到匹配项，会返回 `False` 或者 `None`，# 而不是抛出 KeyError。这本身就是一种容错机制。# 但如果后续代码期望一个列表并直接迭代，仍然需要判断 `all_comments` 的类型。# 我之前爬取豆瓣电影 Top250 评论时，就遇到过一些电影没有评论或者评论结构有差异的情况，# 这时候 `jsonpath` 不会中断程序，只会返回 False，让我能更优雅地处理数据缺失的场景。# 另外，如果你需要动态构建 jsonpath 路径，可以使用 f-string 或字符串拼接：target_category = "reference"
dynamic_path = f'$..book[?(@.category =="{target_category}")].title'
reference_titles = jsonpath.jsonpath(data, dynamic_path)
print(f"通过动态路径提取 {target_category} 类书籍标题: {reference_titles}")

# 调试复杂路径时，我喜欢从短路径开始测试，逐步延长，# 这样一步步验证路径的正确性，能更快地定位问题。# 比如，先测试 `$.store.book` 确认能取到书的列表，# 再测试 `$.store.book[*]` 确认能遍历列表，# 最后加入谓词 `$.store.book[?(@.price < 10)]`。

尽管 jsonpath 强大易用，但在实际使用中，我发现新手开发者（包括我刚开始学的时候）还是会犯一些常见的错误：

混淆返回值类型：
jsonpath.jsonpath 函数 总是返回一个列表，即使只匹配到一个元素或者一个都没有匹配到。很多初学者会期望如果只匹配一个就直接返回那个元素，然后直接 result['key'] 或 result.some_attribute，导致 TypeError: list indices must be integers or slices, not str 或 AttributeError: 'list' object has no attribute 'some_attribute'。
避坑建议： 永远记住 jsonpath 返回的是列表，即使你只想要第一个元素，也应该像这样处理：result = jsonpath.jsonpath(data, '...'); if result: first_item = result[0]。
路径语法错误：
jsonpath 的语法虽然简洁，但 :、*、..、[]、?() 等符号的使用规则必须严格遵守。特别是 . 和 .. 的区别，以及谓词表达式 ?() 中 @ 的使用，容易混淆。例如，$ 和 . 之间不能省略，[?()] 内部不能随意加空格。
避坑建议： 仔细阅读官方文档，多尝试各种查询，并从简单的路径开始逐步构建。如果你不确定某个路径是否正确，可以先用一个小型、可控的 JSON 数据进行测试。
性能考量：
jsonpath 库在处理中等规模（比如几百 KB 到几 MB）的 JSON 数据时，性能表现良好，且开发效率极高。但对于超大型（几十 MB 甚至上 GB）的 JSON 文件，特别是需要流式解析的场景，jsonpath 可能并不是最优解，因为它通常会先将整个 JSON 加载到内存。
避坑建议： 我试过 3 种方法来处理 JSON 数据（传统循环、jsonpath、以及更底层的流式解析库如 ijson）。对于常规 API 响应或配置文件这类小于 10MB 的 JSON，jsonpath 在开发效率和代码可读性方面表现最佳，我日常工作中基本都用它。但如果你的数据量达到几十 GB，需要处理日志文件或大数据流，那么可能需要考虑 ijson 这类支持增量解析的库。大家可根据实际数据量和对性能的极限要求来选择最合适的工具。

掌握 jsonpath 能够大幅提升 Python 处理 JSON 数据的效率和代码可读性，让你告别繁琐的循环和判断，用更简洁优雅的方式从复杂数据中提取所需信息。它是我在日常开发中提升效率的“利器”之一。

你平时都用什么方法处理复杂 JSON 呢？有没有遇到什么有趣的“踩坑”经历？欢迎在评论区分享你的经验和技巧，咱们一起交流！

正文完

发表至： Python

2025-11-07

0

Python基础入门 Day85 文件去重与内容比对

Python 3.12+ 新特性实战：match-case 高级用法与性能优化深度解析

Python基础入门 Day104 图像绘制与图形生成

Python基础入门 Day56：FastAPI 中的异常处理与全局错误响应机制

Python高效处理嵌套JSON数据：告别for循环，拥抱JsonPath实用技巧

Python 高效处理复杂 JSON 数据：`jsonpath` 库实战指南

传统 JSON 处理的痛点：为什么我们需要 `jsonpath`？

`jsonpath` 登场：像 XPath 一样查询 JSON

3 步实操：用 `jsonpath` 提取数据

第一步：简单路径提取

第二步：复杂路径与过滤

第三步：多级嵌套与动态路径（处理可能缺失的键）

常见误区与避坑指南

经验总结

Playwright page.goto(url) 详解：深入解析网页导航的最佳实践

如何在安卓 Termux 上安装 qBittorrent

深度解析：基于 PyTorch 实现图像分类——从数据集构建到模型训练部署全攻略

Python 基础入门 Day30

如何使用Python实现高效的数据筛选和处理：一步步带你掌握列表解析与生成器

如何在Mac上高效使用Terminal：5个实用命令

如何用 Python 批量重命名文件：一步一步的教程

如何用Python爬虫自动化下载网页数据：从入门到精通

Mac 文件管理技巧：如何利用 Spotlight 快速查找文件

Python 性能优化：提升代码执行效率的五个技巧

Python 高效处理复杂 JSON 数据：`jsonpath` 库实战指南

传统 JSON 处理的痛点：为什么我们需要 jsonpath？

jsonpath 登场：像 XPath 一样查询 JSON

3 步实操：用 jsonpath 提取数据

第一步：简单路径提取

第二步：复杂路径与过滤

第三步：多级嵌套与动态路径（处理可能缺失的键）

常见误区与避坑指南

经验总结

传统 JSON 处理的痛点：为什么我们需要 `jsonpath`？

`jsonpath` 登场：像 XPath 一样查询 JSON

3 步实操：用 `jsonpath` 提取数据