从深层循环到 JsonPath：Python 高效解析嵌套 JSON 数据的实战指南

140次阅读

共计 7332 个字符，预计需要花费 19 分钟才能阅读完成。

上周在帮同事调试一个第三方 API 接口时，发现他还在用好几层 for 循环去解析返回的嵌套 JSON 数据，看得我头皮发麻。这让我想起自己刚入行时也踩过类似的坑，面对层层叠叠的 JSON 数据束手无策，只能靠直觉写一堆 dict['key1']['key2'][0]['key3'] 这样的代码。这不仅让代码难以阅读和维护，一旦数据结构稍有变化，就得重写一大片。今天咱们就来聊聊如何优雅高效地处理 Python 中的嵌套 JSON 数据，让你告别“循环地狱”。

面对 JSON 数据，最直观的解析方式就是通过字典（dict）和列表（list）的索引进行取值。如果数据层级不深，比如只有两三层，这种方法确实简单直接。

示例 JSON 数据：

{
    "code": 200,
    "message": "成功",
    "data": {
        "user_info": {
            "id": "12345",
            "name": "张三",
            "age": 30,
            "roles": [{"role_id": "R001", "role_name": "管理员"},
                {"role_id": "R002", "role_name": "开发者"}
            ]
        },
        "projects": [
            {
                "project_id": "P101",
                "project_name": "项目 A",
                "status": "进行中",
                "tasks": [{"task_id": "T001", "task_name": "需求分析", "assignee": "李四"},
                    {"task_id": "T002", "task_name": "原型设计", "assignee": "王五"}
                ]
            },
            {
                "project_id": "P102",
                "project_name": "项目 B",
                "status": "已完成",
                "tasks": [{"task_id": "T003", "task_name": "功能开发", "assignee": "赵六"}
                ]
            }
        ]
    }
}

如果我们要获取所有项目的任务名称和负责人，用传统 for 循环可能会是这样：

import json

json_data_str = """{"code": 200,"message":" 成功 ","data": {"user_info": {"id":"12345","name":" 张三 ","age": 30,"roles": [{"role_id": "R001", "role_name": "管理员"},
                {"role_id": "R002", "role_name": "开发者"}
            ]
        },
        "projects": [
            {
                "project_id": "P101",
                "project_name": "项目 A",
                "status": "进行中",
                "tasks": [{"task_id": "T001", "task_name": "需求分析", "assignee": "李四"},
                    {"task_id": "T002", "task_name": "原型设计", "assignee": "王五"}
                ]
            },
            {
                "project_id": "P102",
                "project_name": "项目 B",
                "status": "已完成",
                "tasks": [{"task_id": "T003", "task_name": "功能开发", "assignee": "赵六"}
                ]
            }
        ]
    }
}
"""

data = json.loads(json_data_str)

task_info = []
# 这里加 try-except 是因为之前爬取豆瓣时遇到过空值报错，踩过坑才知道要防一手
try:
    if data and 'data' in data and 'projects' in data['data']:
        for project in data['data']['projects']:
            if 'tasks' in project:
                for task in project['tasks']:
                    task_name = task.get('task_name')
                    assignee = task.get('assignee')
                    if task_name and assignee: # 避免 None 值加入结果
                        task_info.append({"task_name": task_name, "assignee": assignee})
except KeyError as e:
    print(f"数据结构异常或键不存在: {e}")
except TypeError as e:
    print(f"数据类型错误: {e}")

print("传统循环解析结果:", task_info)
# 传统循环解析结果: [{'task_name': '需求分析', 'assignee': '李四'}, {'task_name': '原型设计', 'assignee': '王五'}, {'task_name': '功能开发', 'assignee': '赵六'}]

这段代码看起来好像完成了任务，但缺点也很明显：

代码冗长且层级深： 只是获取两层嵌套的数据，就写了这么多行 if 判断和 for 循环，一旦层级更深或需要获取的字段更多，代码会迅速膨胀，可读性极差。
维护困难： 如果 JSON 数据的某个字段名发生变化（比如 projects 变成了 project_list），或者某个中间层级被移除，你得逐行修改代码，容易出错。
不够灵活： 如果需求变成了“获取所有管理员的角色名称”，你需要重新写一套类似的循环逻辑。

那么，有没有更优雅、更灵活、更 Pythonic 的方式来处理这些复杂的数据结构呢？答案是肯定的。

二、告别循环地狱：`jsonpath` 库的救赎

我平时处理 API 返回的复杂 JSON 数据时，jsonpath 库绝对是我的首选。它提供了一种 XPath 表达式（类似于 XML 路径语言）来查询 JSON 数据的能力，能让你像定位文件路径一样定位 JSON 中的任意数据，极大提升开发效率。

第一步：安装 jsonpath 库

在使用之前，首先需要安装 jsonpath 库。这是我每次开始新项目时都会做的第一件事，尤其是涉及到大量 JSON 数据处理的场景。

pip install jsonpath

第二步：jsonpath 表达式基础实操

jsonpath 的核心在于它的表达式。下面咱们通过几个小例子来实际操作一下。

小提醒： jsonpath 表达式通常以 $ 符号开头，代表 JSON 数据的根节点。我刚学时总忘记加这个，导致表达式怎么也匹配不到数据，调试半天才发现是这个原因。

from jsonpath import jsonpath
import json

# 沿用之前的 JSON 数据
data = json.loads(json_data_str)

# 1. 获取顶层数据：比如 message
# 表达式：$.message
# 含义：从根节点（$）开始，直接取 'message' 键的值。message = jsonpath(data, '$.message')
print("获取 message:", message)
# 获取 message: ['成功']
# 提醒：jsonpath 默认返回的是一个列表，即使只有一个结果也会是列表。这和 XPath 行为一致。# 2. 获取嵌套字典中的特定值：比如 user_info 中的 name
# 表达式：$.data.user_info.name
# 含义：从根节点（$）开始，依次进入 'data'、'user_info'，最后取 'name' 键的值。user_name = jsonpath(data, '$.data.user_info.name')
print("获取用户名称:", user_name)
# 获取用户名称: ['张三']

# 3. 获取列表中所有元素的某个字段：比如所有项目的 project_name
# 表达式：$.data.projects[*].project_name
# 含义：从 'projects' 列表开始，`[*]` 表示遍历列表中的所有元素，然后取每个元素的 'project_name' 字段。# 这里加 `*` 是因为 `projects` 是一个列表，里面有很多字典对象，我之前试过直接 `projects.project_name` 发现不行，原来要这样批量操作。project_names = jsonpath(data, '$.data.projects[*].project_name')
print("获取所有项目名称:", project_names)
# 获取所有项目名称: ['项目 A', '项目 B']

# 4. 获取深层嵌套列表中所有元素的某个字段：所有任务的 task_name
# 表达式：$.data.projects[*].tasks[*].task_name
# 含义：先遍历所有项目，再遍历每个项目下的所有任务，最后取任务的 'task_name'。all_task_names = jsonpath(data, '$.data.projects[*].tasks[*].task_name')
print("获取所有任务名称:", all_task_names)
# 获取所有任务名称: ['需求分析', '原型设计', '功能开发']

# 5. 获取所有任务的 task_name 和 assignee (如果需要多个字段，jsonpath 一次只能取一个，需要两次查询或在代码中组合)
# 表达式：$.data.projects[*].tasks[*]
# 含义：先获取所有的任务对象，再遍历这些对象提取所需字段。all_tasks = jsonpath(data, '$.data.projects[*].tasks[*]')
task_info_jsonpath = []
if all_tasks: # jsonpath 结果可能为 None，所以要判断一下
    for task in all_tasks:
        task_info_jsonpath.append({"task_name": task.get('task_name'), "assignee": task.get('assignee')})
print("JsonPath 结合循环获取任务信息:", task_info_jsonpath)
# JsonPath 结合循环获取任务信息: [{'task_name': '需求分析', 'assignee': '李四'}, {'task_name': '原型设计', 'assignee': '王五'}, {'task_name': '功能开发', 'assignee': '赵六'}]

看到了吗？使用 jsonpath，原本需要多层 for 循环和 if 判断的代码，现在只需要一行简洁的表达式就能搞定！特别是对于列表中的批量数据提取，[*] 的用法简直是神器。

第三步：jsonpath 高级用法与筛选

jsonpath 不仅仅能定位，还能进行条件筛选。这在处理需要特定条件的数据时非常有用。

小提醒： jsonpath 的筛选器通常用 [?( 表达式)] 表示，里面的表达式是 Python 风格的布尔判断。我刚开始用的时候，经常把 == 写成 =，或者字符串忘了加引号，导致筛选失败。

# 1. 筛选特定条件的项目：比如状态为“进行中”的项目名称
# 表达式：$.data.projects[?(@.status == '进行中')].project_name
# 含义：遍历所有项目，筛选出 'status' 字段值为 '进行中' 的项目，然后取这些项目的 'project_name'。# `@` 符号代表当前元素，也就是当前正在遍历的 project 字典。in_progress_projects = jsonpath(data, '$.data.projects[?(@.status ==" 进行中 ")].project_name')
print("进行中项目名称:", in_progress_projects)
# 进行中项目名称: ['项目 A']

# 2. 筛选特定条件的用户角色：比如 role_id 为 R001 的角色名称
# 表达式：$.data.user_info.roles[?(@.role_id == 'R001')].role_name
# 含义：遍历用户角色列表，筛选 'role_id' 为 'R001' 的角色，取其 'role_name'。admin_role_name = jsonpath(data, '$.data.user_info.roles[?(@.role_id =="R001")].role_name')
print("管理员角色名称:", admin_role_name)
# 管理员角色名称: ['管理员']

# 3. 筛选数值型条件：比如年龄大于 25 岁用户的 id (这里没有直接的数值列表，以其他方式模拟)
# 假设有一个场景是筛选出用户年龄，但原始数据里 user_info.age 是数值，我们可以在筛选器里直接用。# 虽然我们的 JSON 只有一个用户，但这个例子展示了筛选数值的写法。old_enough_user_id = jsonpath(data, '$.data.user_info[?(@.age > 25)].id')
print("年龄大于 25 的用户 ID:", old_enough_user_id)
# 年龄大于 25 的用户 ID: ['12345']

# 4. 模糊匹配 (contains)：如果需要判断字符串是否包含某个子串，jsonpath 库本身没有直接的 `contains` 函数。# 但我们可以通过 Python 列表推导式结合 jsonpath 结果来实现，或者使用 jsonpath-ng 库（功能更强大）。# 对于简单模糊匹配，我通常会先用 jsonpath 获取所有相关字符串，再用 Python 过滤。all_task_names = jsonpath(data, '$.data.projects[*].tasks[*].task_name')
if all_task_names:
    design_tasks = [name for name in all_task_names if "设计" in name]
    print("包含' 设计 '的任务:", design_tasks)
# 包含 '设计' 的任务: ['原型设计']

通过这些实操，你会发现 jsonpath 库极大地简化了 JSON 数据的查询和筛选逻辑。它把数据提取的“脏活累活”都封装在了一行表达式中，让你的 Python 代码更加专注于业务逻辑，而不是数据结构的遍历。

1. `jsonpath` 返回值永远是列表

这是很多新手容易忽略的地方。无论你的表达式匹配到了一个、多个还是零个结果，jsonpath() 函数的返回值都是一个列表。所以在取值时，你可能需要 results[0] 来获取第一个匹配项，或者在使用前判断 if results:。我刚开始用的时候，直接 result = jsonpath(data, '$.key') 然后 print(result.upper()) 结果报 AttributeError: 'list' object has no attribute 'upper'，才发现是列表。

2. `jsonpath` 库并非万能

尽管 jsonpath 强大，但它也有局限性。比如：

完全动态、深度不确定的数据： 如果你的 JSON 结构是完全不可预测的，可能需要递归函数来遍历。jsonpath 更适合于已知或半已知结构的数据。
复杂逻辑的聚合计算： jsonpath 主要用于数据提取和简单筛选，如果需要对提取出的数据进行更复杂的聚合（如求和、平均值）或转换，仍然需要在 Python 代码中完成。
性能考量： 对于处理单个超大 JSON 文件（比如几十 GB），jsonpath 可能会一次性加载整个文件到内存，这可能不是最优解。这时可能需要考虑流式解析或者专门针对大文件的库。我试过用 jsonpath 处理 10 万级别的小型 JSON 数据集合，效率很高，但在处理单个几十 MB 的巨大 JSON 时，启动时间会略长。如果遇到极端性能要求，可以考虑 jsonpath-ng，它在某些场景下可能会有更好的性能。

3. 灵活组合 `jsonpath` 和 Python 代码

我平时用 jsonpath 的习惯是，先用它来精准定位到我需要处理的数据列表或字典，然后如果需要更复杂的条件筛选、数据清洗或转换，再结合 Python 的列表推导式、字典推导式或普通循环进行处理。这就像先用一把“数据铲”把目标数据挖出来，再用“手术刀”精细加工。

示例：获取所有进行中的项目名称及其第一个任务的名称
这需要跨层级关联，jsonpath 很难一步到位，但可以这样组合：

in_progress_projects_data = jsonpath(data, '$.data.projects[?(@.status ==" 进行中 ")]')
# 提醒：jsonpath 的筛选器只能做简单的布尔判断，不能直接进行复杂的关联查询。# 所以这里我先筛选出整个项目对象，再用 Python 处理其内部结构。result = []
if in_progress_projects_data:
    for project in in_progress_projects_data:
        project_name = project.get('project_name')
        first_task_name = None
        if 'tasks' in project and project['tasks']:
            first_task_name = project['tasks'][0].get('task_name') # 获取第一个任务的名称
        result.append({'project_name': project_name, 'first_task_name': first_task_name})

print("进行中项目及其第一个任务名称:", result)
# 进行中项目及其第一个任务名称: [{'project_name': '项目 A', 'first_task_name': '需求分析'}]

高效处理 Python 中的嵌套 JSON 数据，并非只能依靠层层循环。通过引入 jsonpath 这样的专业库，我们可以用简洁明了的表达式取代大量繁琐的逻辑，极大提升开发效率和代码的可维护性。掌握 jsonpath 的基本和高级用法，并学会根据实际需求灵活组合它与 Python 原生代码，是每位 Python 开发者都值得投入时间学习的“生产力工具”。

如果你在处理 JSON 数据时还遇到过哪些“坑”，或者有什么独门秘籍，欢迎在评论区分享，咱们一起交流学习！

正文完