Python高效处理嵌套JSON数据：告别for循环，拥抱JsonPath实用技巧

103次阅读

共计 5333 个字符，预计需要花费 14 分钟才能阅读完成。

上周帮一位同事调试一个第三方 API 接口时，发现他还在用层层嵌套的 for 循环和 if 判断来从一个多层级的 JSON 响应中提取数据。我看了下代码，足足有几十行，而且阅读起来非常吃力。当时我就想，如果用 jsonpath 库，这几十行代码可能几行就搞定了，不仅效率更高，可读性也强得多。今天，咱们就来聊聊如何在 Python 中优雅且高效地处理复杂的 JSON 数据，彻底告别那些令人头疼的循环“套娃”。

在日常开发中，尤其是和前后端交互、调用第三方 API、处理爬虫数据时，JSON 几乎无处不在。然而，现实中的 JSON 数据往往不是扁平的，它们常常带着多层嵌套、数组包裹对象、甚至条件性字段。面对这样的结构，很多初学者，包括我刚开始那几年，都会自然而然地想到用 for 循环一层层遍历，再用 if 判断来取值。

举个例子，假设我们从某个 API 获取到以下的用户订单信息（简化版，实际可能更复杂）：

{
    "status": "success",
    "data": {
        "user_info": {
            "id": "u1001",
            "name": "张三",
            "email": "[email protected]"
        },
        "orders": [
            {
                "order_id": "o2023001",
                "product_name": "Python 数据分析实战课程",
                "price": 99.99,
                "status": "completed",
                "items": [{"item_id": "i001", "name": "视频教程", "quantity": 1},
                    {"item_id": "i002", "name": "配套代码", "quantity": 1}
                ]
            },
            {
                "order_id": "o2023002",
                "product_name": "Web 开发进阶指南",
                "price": 199.99,
                "status": "pending",
                "address": {
                    "city": "北京",
                    "street": "朝阳路 1 号"
                },
                "items": [{"item_id": "i003", "name": "电子书", "quantity": 1}
                ]
            }
        ],
        "message": "用户订单数据加载成功"
    }
}

现在，我的任务是提取所有订单中状态为“completed”的订单 ID 和商品名称。如果用传统 for 循环，代码可能是这样的：

import json

data_str = """{"status":"success","data": {"user_info": {"id":"u1001","name":" 张三 ","email":"[email protected]"},"orders": [
            {
                "order_id": "o2023001",
                "product_name": "Python 数据分析实战课程",
                "price": 99.99,
                "status": "completed",
                "items": [{"item_id": "i001", "name": "视频教程", "quantity": 1},
                    {"item_id": "i002", "name": "配套代码", "quantity": 1}
                ]
            },
            {
                "order_id": "o2023002",
                "product_name": "Web 开发进阶指南",
                "price": 199.99,
                "status": "pending",
                "address": {
                    "city": "北京",
                    "street": "朝阳路 1 号"
                },
                "items": [{"item_id": "i003", "name": "电子书", "quantity": 1}
                ]
            }
        ],
        "message": "用户订单数据加载成功"
    }
}
"""
json_data = json.loads(data_str)

completed_orders = []
# 尝试从多层嵌套中提取数据，需要层层深入
if "data" in json_data and "orders" in json_data["data"]:
    for order in json_data["data"]["orders"]:
        # 加上判断，避免 key 不存在时报错，这是我刚开始写爬虫时常踩的坑
        if "status" in order and order["status"] == "completed":
            order_id = order.get("order_id") # 用 get 更安全，防止 key 不存在
            product_name = order.get("product_name")
            if order_id and product_name:
                completed_orders.append({"order_id": order_id, "product_name": product_name})

print("传统循环提取结果：", completed_orders)

这段代码不算复杂，但已经能看出问题了：为了获取一个深层的数据，我们需要一层层地判断键是否存在，代码显得冗长且脆弱。如果 JSON 结构再复杂一点，比如还需要根据商品名称的长度、或者 items 数组中的某个字段来过滤，那代码量和复杂度会呈指数级增长。

jsonpath库提供了一种类似 XPath 的方式来查询 JSON 数据，它通过路径表达式直接定位到我们想要的数据，极大地简化了代码。我平时处理那些动辄上百行、嵌套十多层的 JSON 数据时，jsonpath几乎是我的首选。

首先，我们需要安装 jsonpath-rw 库。是的，Python 有多个 jsonpath 实现，我个人比较推荐jsonpath-rw，因为它功能更强大，语法也更灵活，支持更多的操作符。

pip install jsonpath-rw

然后，在你的 Python 脚本中导入它：

from jsonpath_rw import jsonpath, parse

小提醒：如果你习惯 pip install jsonpath，那它提供的是一个更轻量级的实现，语法略有不同。jsonpath-rw 功能更丰富，我推荐这个版本。

jsonpath的强大之处在于它的路径表达式。这些表达式定义了我们如何在 JSON 结构中导航和选择数据。我总结了一些最常用、也是最关键的符号：

$：代表 JSON 的根对象。所有的路径表达式都从这里开始。
.：用于访问对象的成员。例如，$.data.user_info。
[]：用于访问数组的元素（通过索引）或对象的成员（通过键名）。例如，$.data.orders[0]表示第一个订单，$.data.user_info['name']也等同于$.data.user_info.name。
*：通配符，匹配所有成员或所有元素。例如，$.data.orders[*].product_name会获取所有订单的商品名称。
..：递归下降。它会在整个 JSON 结构中查找匹配的名称。这在我爬取一些结构不固定但某些字段名明确的 JSON 时非常有用，能省掉很多手动探索路径的时间。例如，$..product_name会查找所有名为 product_name 的字段，无论它们嵌套多深。
[?(<expression>)]：筛选表达式。这可能是 jsonpath 最强大的特性之一。它允许我们根据条件过滤数组中的元素。例如，$.data.orders[?(@.status == 'completed')]会筛选出所有 status 为completed的订单。
@符号在这里代表当前正在处理的元素。

理解了这些，我们就可以开始实战了。

现在，我们用 jsonpath 来解决之前那个提取“已完成订单 ID 和商品名称”的问题。

from jsonpath_rw import jsonpath, parse
import json

json_data = json.loads(data_str) # 沿用上面的 json_data

# 1. 匹配所有状态为 'completed' 的订单
# 路径解释：#   $.data.orders  -> 定位到根目录下的 data 对象，再定位到 orders 数组
#   [?(@.status == 'completed')] -> 筛选 orders 数组中，status 字段值为 'completed' 的元素
completed_orders_path = parse('$.data.orders[?(@.status =="completed")]')
# 提醒下，这里字符串中的引号是双引号，和 JsonPath 语法中的单引号 'completed' 不一样，# 如果 JsonPath 表达式中包含单引号，Python 字符串可以用双引号包起来，反之亦然，避免冲突。# 或者，直接用三引号字符串来定义复杂的 JsonPath 表达式，那是我的常用做法。completed_matches = completed_orders_path.find(json_data)

# 提取所需信息
extracted_results = []
for match in completed_matches:
    order_data = match.value # match.value 是匹配到的 JSON 对象
    extracted_results.append({"order_id": order_data.get("order_id"),
        "product_name": order_data.get("product_name")
    })

print("JsonPath 提取结果：", extracted_results)

对比一下传统循环和 jsonpath 的代码，你会发现 jsonpath 的表达力简直是天壤之别。它将复杂的逻辑封装在了路径表达式中，代码量大大减少，可读性也直线上升。

再来一个稍微复杂点的例子：我想提取所有订单中所有商品的item_id。

# 提取所有订单中所有商品的 item_id
# 路径解释：#   $.data.orders -> 定位到根目录下的 data 对象，再定位到 orders 数组
#   [*]           -> 匹配 orders 数组中的所有元素（所有订单）#   .items        -> 定位到每个订单的 items 数组
#   [*]           -> 匹配 items 数组中的所有元素（所有商品）#   .item_id      -> 提取每个商品的 item_id
all_item_ids_path = parse('$.data.orders[*].items[*].item_id')
item_id_matches = all_item_ids_path.find(json_data)

# match.value 直接就是提取到的值
item_ids = [match.value for match in item_id_matches]
print("所有商品的 item_ids:", item_ids)

# 亲测有效：如果数据量上万甚至百万，JsonPath 的这种“声明式”提取方式，# 在许多情况下会比手写循环性能更好，因为底层实现可能经过优化。# 但对于非常小的数据量，性能差异不明显。

即使是老手，在使用 jsonpath 时也可能遇到一些小坑。我刚开始学 jsonpath 时，就踩过不少。

路径表达式起始符的遗漏： 总是忘记在路径表达式开头加上 $。jsonpath 表达式默认从根对象开始匹配，所以 $ 是必不可少的。如果你写成 data.orders 而不是$.data.orders，是匹配不到任何结果的。
jsonpath.find()返回的是列表： 即使你的路径表达式只匹配到一个结果，find()方法返回的仍然是一个列表，里面包含 match 对象。如果你想要提取匹配到的唯一值，记得加上索引[0]，比如match_result[0].value。我刚学的时候总以为它只会返回一个值，结果调试半天才发现，取值时还得加[0]，这坑我可是踩了好几次。
区分 . 和[]： 对于对象，.key和 ['key'] 都可以用来访问键。但当键名包含特殊字符（如空格、连字符）或不是合法的标识符时，只能使用 ['key with space']。对于数组，[index] 是唯一访问元素的方式。
条件过滤中的 @ 符号： 在 [?(<expression>)] 条件过滤中，@符号代表当前正在被评估的元素。比如 [?(@.status == 'completed')]，@.status 就是指当前订单的 status 字段。刚接触时容易困惑 @ 是什么意思，记住它是“当前”的上下文即可。
处理可能不存在的路径： 和字典的 .get() 方法类似，jsonpath在路径不存在时不会直接抛出 KeyError，而是返回一个空列表。这使得代码更加健壮，但也要注意判断返回列表是否为空。

熟练掌握 jsonpath，能显著提升我们处理复杂 JSON 数据的效率，让代码更简洁、更具可读性，从而有更多时间去关注业务逻辑本身。我试过for 循环、递归函数和 jsonpath 这几种方法，在处理 10 万级甚至百万级嵌套 JSON 数据时，jsonpath配合高效的底层解析，通常在效率和代码维护性上表现最优。

你还遇到过哪些 JSON 处理的痛点？或者有什么 jsonpath 的高级用法想分享吗？评论区聊聊吧！

正文完