从嵌套 JSON 中高效提取数据：告别循环地狱，拥抱简洁之道

93次阅读

共计 5835 个字符，预计需要花费 15 分钟才能阅读完成。

上周帮同事调试一个聚合多个服务的接口时，发现很多老代码还在用层层 for 循环处理返回的 JSON 数据，不仅代码冗长，而且效率低下。其实，面对嵌套的 JSON 结构，Python 有更优雅、高效的解决方案，今天咱们就来盘点一下，如何从这些复杂数据中，又快又准地取出咱们想要的信息。

问题重现：传统 `for` 循环的“痛”

在日常开发中，我们经常会遇到这样的场景：从接口返回或者文件中读取到一份复杂的 JSON 数据，里面包含了多层嵌套的字典和列表。比如，我们有一个模拟的用户订单数据：

complex_data = {
    "status": "success",
    "data": {
        "user_id": "U12345",
        "user_name": "张三",
        "orders": [
            {
                "order_id": "O001",
                "products": [{"product_name": "笔记本电脑", "price": 8999, "quantity": 1},
                    {"product_name": "鼠标", "price": 99, "quantity": 2}
                ],
                "total_amount": 9197.0,
                "status": "completed"
            },
            {
                "order_id": "O002",
                "products": [{"product_name": "机械键盘", "price": 599, "quantity": 1}
                ],
                "total_amount": 599.0,
                "status": "pending"
            }
        ]
    },
    "metadata": {
        "timestamp": "2023-10-27T10:00:00Z",
        "api_version": "1.0"
    }
}

现在，我的任务是从这份数据中，提取出所有已完成订单（status == "completed"）中购买的商品名称和价格。如果用传统的 for 循环，代码可能会是这样：

completed_products_info = []
if complex_data.get("data") and complex_data["data"].get("orders"):
    for order in complex_data["data"]["orders"]:
        # 这里判断订单状态，是不是看着就头大？每次都要层层判断
        if order.get("status") == "completed" and order.get("products"):
            for product in order["products"]:
                # 遍历商品列表，取出名称和价格
                product_name = product.get("product_name")
                product_price = product.get("price")
                if product_name and product_price:
                    completed_products_info.append({"name": product_name, "price": product_price})

print("通过 for 循环提取:", completed_products_info)
# 缺点：代码层级深、可读性差、容易漏掉空值判断导致 KeyError

这种多层 for 循环不仅写起来费劲，调试起来也痛苦，尤其当 JSON 结构更复杂时，简直是噩梦。接下来，我带大家看看更优雅的解决方案。

面对相对扁平或只有一两层嵌套的数据，Python 的列表推导式（List Comprehension）和字典推导式（Dictionary Comprehension）是提升代码简洁度和效率的利器。它们能将多行循环操作压缩成一行，让代码更加 Pythonic。

我们来试试用推导式来提取所有订单的 order_id：

# 提取所有订单 ID
# 习惯上，我会在开始提取前做一次顶层数据的校验，防止 Key Error
orders = complex_data.get("data", {}).get("orders", [])
order_ids = [order.get("order_id") for order in orders if order.get("order_id")]
print(f"提取所有订单 ID ( 列表推导式): {order_ids}")

# 如果要提取已完成订单的订单 ID 和总金额
completed_orders_summary = [{"order_id": order.get("order_id"), "total_amount": order.get("total_amount")}
    for order in orders if order.get("status") == "completed"
]
print(f"提取已完成订单的 ID 和金额 ( 列表推导式): {completed_orders_summary}")

小提醒 ：列表推导式虽好，但深度超过三层时，可读性会急剧下降。我刚开始学推导式时，总想着一次性解决所有问题，结果写出了一堆难以理解的表达式，后来才明白，适度嵌套、分步处理才是王道。对于更深层次的嵌套，我们有更好的工具。

第二步：祭出大杀器——`jsonpath` 库

当我平时处理那些“奇形怪状”、结构不定的嵌套 JSON 时，jsonpath 库是我的首选工具。它就像 XPath 用于 XML 一样，提供了一种简洁的语法来定位和提取 JSON 中的数据，大大简化了复杂数据结构的遍历。

首先，你需要安装 jsonpath 库：
pip install jsonpath_ng (注意：常用的 jsonpath 库通常指的是 jsonpath-ng，它功能更强大、维护更活跃 )

jsonpath 的核心语法概念：

$：表示根对象。
. 或 []：子节点运算符，用于访问直接子元素。例如 $.data.user_id。
..：递归下降运算符，用于在任意深度查找匹配的元素。例如 $.data..product_name 可以找到所有产品名称。
*：通配符，匹配所有子节点。
[]：
- [<number>]：数组索引。例如 $.data.orders[0]。
- [<number>,<number>,...]：多个数组索引。
- [start:end:step]：数组切片。
- [?(<expression>)]：筛选表达式，允许根据条件过滤元素。例如 $.data.orders[?(@.status == 'completed')]。

现在，我们用 jsonpath 来解决最初的问题：提取所有已完成订单的商品名称和价格。

from jsonpath_ng import jsonpath, parse

# 1. 提取所有已完成订单的所有商品信息
# jsonpath 语法：$.data.orders 找到所有订单
# [?(@.status == 'completed')] 筛选出状态为 completed 的订单
# .products[*] 遍历这些订单下的所有 products 列表中的每个商品
completed_products_path = parse('$.data.orders[?(@.status =="completed")].products[*]')
matches = completed_products_path.find(complex_data)

# matches 会是一个列表，每个元素是一个 Product 字典
all_completed_products = []
for match in matches:
    # 这里 match.value 就是单个商品的字典，比如 {"product_name": "笔记本电脑", "price": 8999, "quantity": 1}
    product = match.value
    # 提取商品名称和价格
    product_name = product.get("product_name")
    product_price = product.get("price")
    if product_name and product_price:
        all_completed_products.append({"name": product_name, "price": product_price})

print(f"通过 jsonpath 提取 ( 所有商品): {all_completed_products}")

# 2. 如果我想直接提取所有商品名称
product_names_path = parse('$.data.orders[*].products[*].product_name')
product_names = [match.value for match in product_names_path.find(complex_data)]
print(f"所有商品名称 (jsonpath): {product_names}")

# 3. 提取特定条件下的数据，比如价格大于 500 的商品名称
expensive_products_path = parse('$.data.orders[*].products[?(@.price > 500)].product_name')
expensive_product_names = [match.value for match in expensive_products_path.find(complex_data)]
print(f"价格大于 500 的商品名称 (jsonpath): {expensive_product_names}")

是不是感觉代码瞬间清爽了很多？jsonpath 把复杂的遍历和筛选逻辑都封装进了表达式里。

小提醒 ：jsonpath.find() 返回的是一个 Match 对象列表，每个 Match 对象有 value 属性，才是我们真正想要的数据。即使只匹配到一个结果，它也通常会返回一个包含一个元素的列表。我之前就因为直接 data['key'] 导致 TypeError，调试了好久才发现，原来 jsonpath 总是返回一个列表，所以记得要取 [0] 或遍历处理。

实际场景中，数据结构往往更复杂，可能需要 jsonpath 和列表推导式“组合拳”才能完美解决，并且别忘了鲁棒性——错误处理至关重要。

假设我们现在要提取所有订单中，总金额大于 500 的订单 order_id 和该订单中所有价格大于 100 的商品名称。

# 1. 首先用 jsonpath 找到所有总金额大于 500 的订单
expensive_orders_path = parse('$.data.orders[?(@.total_amount > 500)]')
expensive_orders_matches = expensive_orders_path.find(complex_data)

result = []
for order_match in expensive_orders_matches:
    order_data = order_match.value # 得到单个订单的字典
    order_id = order_data.get("order_id")

    # 对每个订单，用 jsonpath 提取价格大于 100 的商品名称
    # 注意这里因为已经定位到单个订单，路径不再需要从根开始
    products_path_in_order = parse('$.products[?(@.price > 100)].product_name')
    # 这里的 products_path_in_order.find(order_data) 会对当前订单字典进行操作
    product_names_in_order = [match.value for match in products_path_in_order.find(order_data)
    ]

    # 这里加 try-except 是因为之前处理一些不规范的第三方 API 数据时，# 经常会遇到某个字段缺失的情况，如果直接访问就会抛 KeyError，防一手总是好的。try:
        if order_id and product_names_in_order:
            result.append({
                "order_id": order_id,
                "expensive_products": product_names_in_order
            })
    except KeyError as e:
        print(f"警告：处理订单 {order_id} 时缺少字段: {e}")
    except Exception as e:
        print(f"警告：处理订单 {order_id} 时发生未知错误: {e}")

print(f"组合拳提取结果: {result}")

通过 jsonpath 初步筛选出符合条件的父级数据，再针对每个父级数据进行更细致的 jsonpath 提取或列表推导式处理，这种组合拳能灵活应对各种复杂场景。同时，别忘了用 get() 方法安全访问字典键，或者用 try-except 块来捕获潜在的 KeyError、IndexError，让你的代码更健壮。

过度嵌套推导式 ：新手容易写出极其复杂的单行推导式，试图解决所有问题。比如：
[product['name'] for order in orders if order['status'] == 'completed' for product in order['products'] if product['price'] > 100]
虽然能实现功能，但一旦嵌套超过两层，可读性就直线下降，后期维护会非常痛苦。我建议，如果逻辑变得复杂，宁可拆分成多行或者多步操作，或者考虑 jsonpath。
忽视 jsonpath 返回类型 ：前面提过，jsonpath.find() 总是返回一个列表（即使只有一个匹配项或者没有匹配项）。很多时候，大家会想当然地认为 parse().find(data).value 就能直接拿到结果，但这样很可能导致 AttributeError。正确的做法是遍历 find() 的结果或者取 [0].value。
不处理潜在的 KeyError 或 IndexError：尤其是在处理来自外部或不规范的数据源时，某些字段可能缺失。直接 data['key'] 会导致程序崩溃。使用 data.get('key', default_value) 是一个很好的习惯，或者用 try-except 块包裹。