Python JSON数据提取神器：深入解析jsonpath实用技巧

145次阅读

共计 4457 个字符，预计需要花费 12 分钟才能阅读完成。

上周在协助团队调试一个核心业务的微服务接口时，我发现不少同事在处理从接口返回的复杂 JSON 数据时，依然习惯性地写着层层嵌套的 for 循环和 if 判断。虽然功能实现了，但代码冗长且不易维护，尤其当 JSON 结构发生变化时，改动量会非常大。当时我就想，如果大家能掌握 jsonpath 这个库，至少能省下一半甚至更多的数据提取时间，还能让代码变得更加简洁优雅。今天，我就把这个“JSON 数据提取神器”的实战经验分享给大家。

为什么选择 `jsonpath` 而不是传统循环？

大家平时用 Python 处理 JSON 数据，特别是需要从一个结构复杂、层级很深的 JSON 中提取特定信息时，往往会用 data['key1']['key2'][0]['target'] 这种方式。这种硬编码的路径在数据结构固定时还好，但如果 JSON 结构动态变化，或者你需要根据条件筛选列表中的元素，这种方式就会变得异常笨重。

我刚开始接触爬虫和接口自动化测试时，也经常遇到这类问题。有一次爬取一个电商网站的商品详情，JSON 返回的数据结构非常复杂，商品信息、SKU、优惠券等字段散落在不同的层级和列表中。一开始我也是用 for 循环一层一层剥洋葱，结果光是提取商品价格和库存就写了几十行代码，而且稍有不慎就 KeyError。直到后来接触到 jsonpath，才真正体会到什么叫“高效”和“优雅”。它提供了一种类似 XPath 的查询语法，能让你用一行代码搞定复杂的 JSON 数据筛选和提取。

三步实操：用 `jsonpath` 提取复杂 JSON 数据

为了让大家快速上手，我把 jsonpath 的核心用法总结为以下三个实操步骤。

第一步：安装 `jsonpath` 库

这个库不是 Python 内置的，需要我们手动安装。

pip install jsonpath

小提醒： 确保你的 Python 环境是激活的，如果你使用虚拟环境，记得先 source venv/bin/activate 或 .venvScriptsactivate。之前有次我在不同的项目环境下安装，结果发现另一个项目运行报错，才发现是环境没切换对，安装到全局去了。

第二步：理解 `jsonpath` 的核心语法

jsonpath 的强大之处在于其简洁而富有表现力的查询语法。理解这些核心符号，你就能像使用 SQL 查询数据库一样查询 JSON 数据。

$：表示根节点。所有 jsonpath 表达式都从这里开始。
. 或 []：用于访问子节点。例如 $.store.book 或 $.store['book']。
..：递归下降。查找所有符合条件的子节点，无论层级有多深。这在你不确定目标字段具体在哪一层时特别有用。
*：通配符，匹配所有子节点或所有数组元素。
[]：数组索引或切片。例如 $.store.book[0] 表示第一个元素，$.store.book[-1] 表示最后一个，$.store.book[0:2] 表示前两个。
[?(expression)]：条件过滤表达式。这允许你根据字段的值进行筛选。@ 符号代表当前节点。例如 $[?(@.price > 10)]。

小提醒： .. 这个操作符是 jsonpath 的一大亮点，它能大大简化跨层级查询。我刚开始用的时候，总想着把每层路径都写出来，结果发现 .. 能帮我省去很多麻烦，比如提取所有 name 字段，无论它在哪个对象里，一个 $...name 就搞定了。

接下来，咱们通过一个经典的 JSON 示例来演示 jsonpath 的强大功能。

假设我们有以下一个模拟的电商数据：

{
    "store": {
        "book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            },
            {
                "category": "fiction",
                "author": "Herman Melville",
                "title": "Moby Dick",
                "isbn": "0-553-21311-3",
                "price": 8.99
            },
            {
                "category": "fiction",
                "author": "J.R.R. Tolkien",
                "title": "The Lord of the Rings",
                "isbn": "0-395-19395-8",
                "price": 22.99
            }
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "expensive": 10
}

现在，让我们用 jsonpath 来提取一些数据：

import json
from jsonpath import jsonpath

data = {
    "store": {
        "book": [{"category": "reference", "author": "Nigel Rees", "title": "Sayings of the Century", "price": 8.95},
            {"category": "fiction", "author": "Evelyn Waugh", "title": "Sword of Honour", "price": 12.99},
            {"category": "fiction", "author": "Herman Melville", "title": "Moby Dick", "isbn": "0-553-21311-3", "price": 8.99},
            {"category": "fiction", "author": "J.R.R. Tolkien", "title": "The Lord of the Rings", "isbn": "0-395-19395-8", "price": 22.99}
        ],
        "bicycle": {"color": "red", "price": 19.95}
    },
    "expensive": 10
}

# 1. 提取所有书的作者
# $..author 表示从根节点开始，递归查找所有名为 'author' 的字段
authors = jsonpath(data, '$..author')
print(f"所有作者: {authors}")
# 输出: ['Nigel Rees', 'Evelyn Waugh', 'Herman Melville', 'J.R.R. Tolkien']

# 2. 提取所有价格超过 10 元的书的标题
# $..book[?(@.price > 10)].title：#   $..book：递归查找所有 'book' 列表
#   [?(@.price > 10)]：在找到的每个 'book' 列表中，筛选出 'price' 大于 10 的元素
#   .title：提取这些筛选出来的元素的 'title' 字段
expensive_books_titles = jsonpath(data, '$..book[?(@.price > 10)].title')
print(f"价格超过 10 元的书名: {expensive_books_titles}")
# 输出: ['Sword of Honour', 'The Lord of the Rings']

# 3. 提取第二本书的标题
# $.store.book[1].title：通过精确路径和索引获取
second_book_title = jsonpath(data, '$.store.book[1].title')
print(f"第二本书的标题: {second_book_title}")
# 输出: ['Sword of Honour']

# 4. 提取所有有 ISBN 号的书的作者
# $..book[?(@.isbn)].author：#   [?(@.isbn)]：筛选出包含 'isbn' 字段的书
#   .author：提取这些书的作者
books_with_isbn_authors = jsonpath(data, '$..book[?(@.isbn)].author')
print(f"有 ISBN 号的书的作者: {books_with_isbn_authors}")
# 输出: ['Herman Melville', 'J.R.R. Tolkien']

# 5. 提取商店中所有商品（书籍和自行车）的价格
# $.store.*.price：#   $.store.*：匹配 store 下的所有直接子元素（book 列表和 bicycle 对象）#   .price：提取这些子元素的 'price' 字段
all_prices_in_store = jsonpath(data, '$.store.*.price')
print(f"商店中所有商品的价格: {all_prices_in_store}")
# 输出: [[8.95, 12.99, 8.99, 22.99], 19.95]
# 注意：这里返回的是一个列表，因为 'book' 本身是一个列表，所以其价格又包含在一个子列表里。# 如果想扁平化，可能需要进一步处理，例如 sum(price_list, [])

小提醒： 当你使用 jsonpath 提取数据时，它总是返回一个列表，即使只有一个匹配项。我之前就因为预期它直接返回字符串或数字而掉过坑，比如 jsonpath(data, '$.store.bicycle.price')[0] 才是真正的值。另外，如果查询路径没有匹配到任何数据，它会返回 False，而不是空列表或 None，这一点在做条件判断时需要特别注意，比如 if jsonpath(data, '$.non.existent.path'): 可能会导致意想不到的结果，我平时会习惯性地用 if result and result[0]: 来判断。

常见误区：新手常犯的 `jsonpath` 错误

误解返回值类型： 很多初学者会以为 jsonpath 在只匹配一个结果时会直接返回该结果的值（字符串、数字等），但实际上它总是返回一个列表。例如，提取自行车价格时，jsonpath(data, '$.store.bicycle.price') 返回的是 [19.95]，而不是 19.95。解决方法通常是取列表的第一个元素 [0]。
混淆 . 和 .. 的用法： . 用于直接子节点访问，而 .. 是递归搜索。我刚学的时候，有时会忘记使用 .. 而陷入一层层 . 的泥潭，导致写出的路径非常长，难以维护。当你不确定字段在哪个层级时，大胆使用 .. 会让你的表达式更简洁。
条件过滤中的 @ 符号： [?(expression)] 里的 @ 符号表示当前节点，这个非常关键。很多人会忘记或者错误地使用它，比如直接写 [?(price > 10)]，这会导致语法错误。记住，条件判断总是针对当前匹配到的节点进行。