Python JSON数据提取：如何用jsonpath库提升效率与可维护性

127次阅读

共计 6332 个字符，预计需要花费 16 分钟才能阅读完成。

上周帮同事调试一个后端接口时，发现他在处理一个嵌套层级深、字段多的 JSON 数据时，还在用多层 for 循环和 if 判断来逐级查找、提取信息。那段代码足足有几十行，看着都眼花，更别提后续的维护了。当时我就想，这效率可太低了，不光是他，我敢肯定很多初学者甚至一些进阶开发者也还在为类似问题头疼。其实，Python 里有个 jsonpath 库，能让你用更简洁、更强大的方式来处理这类复杂的 JSON 数据，省下一半时间绝对不是问题，而且代码可读性直接上了一个台阶。今天，咱们就来实操一遍，看看 jsonpath 到底有多香。

为什么我们需要 `jsonpath`？告别循环地狱

想象一下，你从某个 API 获取到了一大串 JSON 数据，它可能长这样（这是一个简化的示例，真实场景可能更复杂）：

{
    "store": {
        "book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            },
            {
                "category": "fiction",
                "author": "Herman Melville",
                "title": "Moby Dick",
                "isbn": "0-553-21311-3",
                "price": 8.99
            },
            {
                "category": "fiction",
                "author": "J. R. R. Tolkien",
                "title": "The Lord of the Rings",
                "isbn": "0-395-19395-8",
                "price": 22.99
            }
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "expensive": 10
}

现在，你的任务是提取所有书籍的标题，以及价格低于 10 元的书籍的作者。如果用传统的 Python 字典遍历方式，代码可能会是这样：

import json

data = json.loads("""{"store": {"book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            },
            {
                "category": "fiction",
                "author": "Herman Melville",
                "title": "Moby Dick",
                "isbn": "0-553-21311-3",
                "price": 8.99
            },
            {
                "category": "fiction",
                "author": "J. R. R. Tolkien",
                "title": "The Lord of the Rings",
                "isbn": "0-395-19395-8",
                "price": 22.99
            }
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "expensive": 10
}
""")

book_titles = []
for book in data.get('store', {}).get('book', []):
    if 'title' in book: # 之前爬取数据时遇到过字段缺失报错，加个判断稳妥点
        book_titles.append(book['title'])

cheap_book_authors = []
for book in data.get('store', {}).get('book', []):
    if 'price' in book and book['price'] < 10: # 条件筛选，注意字段存在性
        cheap_book_authors.append(book['author'])

print("所有书籍标题:", book_titles)
print("价格低于 10 元的书籍作者:", cheap_book_authors)

这段代码虽然能跑，但当 JSON 结构变得更复杂、嵌套层级更深、查询条件更多变时，代码就会迅速膨胀，可读性和维护性直线下降。我当年刚接触爬虫时，处理过一个商品详情页的 JSON 数据，光是为了找到一个特定属性，就写了四五层 for 循环，后来需求一变，简直是灾难。

jsonpath 的出现，就是为了解决这个痛点。它就像 XPath 用于 XML 一样，提供了一种声明式的查询语言，让你能用简洁的路径表达式，像 SQL 查询数据库一样，从复杂的 JSON 结构中精准定位和提取数据。

开始之前，我们得先把 jsonpath 库安装好。我个人比较常用 jsonpath-ng 这个版本，它功能更强大，社区活跃度也高，支持的语法也更丰富。

pip install jsonpath-ng

好了，现在咱们就用上面的 JSON 数据作为例子，一步步来看 jsonpath 是怎么大显身手的。

from jsonpath_ng import jsonpath, parse
import json

json_data = json.loads("""{"store": {"book": [
            {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
            },
            {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
            },
            {
                "category": "fiction",
                "author": "Herman Melville",
                "title": "Moby Dick",
                "isbn": "0-553-21311-3",
                "price": 8.99
            },
            {
                "category": "fiction",
                "author": "J. R. R. Tolkien",
                "title": "The Lord of the Rings",
                "isbn": "0-395-19395-8",
                "price": 22.99
            }
        ],
        "bicycle": {
            "color": "red",
            "price": 19.95
        }
    },
    "expensive": 10
}
""")

jsonpath 表达式由一系列操作符组成，用来描述如何在 JSON 结构中“行走”。

$: 代表 JSON 数据的根元素。
. 或 []: 访问对象的属性。.store 等同于 ['store']。如果键名包含特殊字符（比如空格或 -），则必须使用 ['key with spaces'] 这种形式。我之前在处理某些第三方接口数据时，遇到过键名是 last-update-time 这种形式，用点号就会报错，后来才知道要用方括号。
[index]: 访问数组中的特定元素。

现在，我们来提取商店里第一本书的标题：

# 提取第一本书的标题
# jsonpath 表达式：$.store.book[0].title
# $ 代表根节点
# .store 访问 store 属性
# .book 访问 book 数组
# [0] 访问 book 数组的第一个元素 (索引从 0 开始)
# .title 访问该元素的 title 属性
first_book_title_expr = parse('$.store.book[0].title')
match = first_book_title_expr.find(json_data)

if match:
    print("第一本书的标题:", match[0].value) # jsonpath-ng 返回的是 Match 对象的列表，需要 .value 才能取到实际数据
else:
    print("未找到第一本书的标题") # 实际项目中，一定要考虑数据可能不存在的情况

小提醒： jsonpath-ng 的 find 方法总是返回一个 Match 对象的列表，即使只有一个匹配项。所以，你需要通过 [0].value 来获取实际的值。我刚开始用的时候，经常忘记 .value 导致取到的是 Match 对象，而不是我想要的数据，调试了好久才明白。

当我们需要提取多个同类型数据，或者不确定数据在哪个层级时，通配符和递归下降就派上用场了。

*: 通配符，匹配当前节点下的所有子节点。
..: 递归下降，无论在哪个层级，只要找到匹配的名称就返回。这在处理层级不固定或需要全树搜索时非常有用。

场景一：提取所有书籍的标题

# 提取所有书籍的标题
# jsonpath 表达式：$.store.book[*].title
# * 匹配 book 数组中的所有元素
all_book_titles_expr = parse('$.store.book[*].title')
titles = [match.value for match in all_book_titles_expr.find(json_data)]
print("所有书籍标题:", titles)

# 如果想获取所有书籍的所有作者名，就写成 $.store.book[*].author
all_book_authors_expr = parse('$.store.book[*].author')
authors = [match.value for match in all_book_authors_expr.find(json_data)]
print("所有书籍作者:", authors)

场景二：提取所有商品的价格（包括书籍和自行车，无论在 store 下的哪个位置）

# 提取所有商品的价格 (所有层级下的 price 字段)
# jsonpath 表达式：$..price
# ..price 会在整个 JSON 结构中查找所有名为 "price" 的字段
all_prices_expr = parse('$..price')
prices = [match.value for match in all_prices_expr.find(json_data)]
print("所有商品价格:", prices) # 亲测有效，一行代码搞定之前要写循环才能实现的功能

# 以前有个需求是统计某个复杂 JSON 中所有名为 "id" 的字段，不管它藏得多深，用 $..id 就搞定了，效率极高。

小提醒： 递归下降 .. 虽然强大方便，但在数据量特别大，且你知道数据具体路径的情况下，精确路径（比如 $.store.book[*].price）的效率通常会更高，因为它的查找范围更小。用 .. 时，也要注意返回结果的扁平化处理，不然可能会得到重复数据或意想不到的结构。

jsonpath 的强大之处还在于可以结合条件表达式进行过滤，这在数据筛选时非常有用。

[?(expression)]: 过滤器，expression 是一个布尔表达式，@ 代表当前元素。
比较运算符：==, !=, <, >, <=, >=。
逻辑运算符：&& (AND), || (OR)。

场景一：找出所有价格低于 10 元的书籍的标题

# 找出所有价格低于 10 元的书籍的标题
# jsonpath 表达式：$.store.book[?(@.price < 10)].title
# ?(@.price < 10) 过滤条件，@ 代表当前书籍对象，筛选 price 属性小于 10 的书籍
cheap_books_title_expr = parse('$.store.book[?(@.price < 10)].title')
cheap_titles = [match.value for match in cheap_books_title_expr.find(json_data)]
print("价格低于 10 元的书籍标题:", cheap_titles)

场景二：找出所有作者包含 “Herman” 且价格高于 5 元的书籍标题

# 找出作者包含 "Herman" 且价格高于 5 元的书籍标题
# jsonpath 表达式：$.store.book[?(@.author =~ "Herman" && @.price > 5)].title
# =~ "pattern" 用于正则表达式匹配，这里匹配包含 "Herman" 的作者
# && 是逻辑与操作符
filtered_books_title_expr = parse('$.store.book[?(@.author =~"Herman"&& @.price > 5)].title')
filtered_titles = [match.value for match in filtered_books_title_expr.find(json_data)]
print("作者包含'Herman'且价格高于 5 元的书籍标题:", filtered_titles)

# 小提醒：我以前写条件表达式时，经常把 '==' 写成 '='，导致表达式解析失败，或者得到错误的结果。# 还有字符串匹配时，要注意大小写敏感问题，以及正则表达式的正确写法，这些都是容易踩的坑。

尽管 jsonpath 强大，但在使用过程中，尤其对于初学者，还是有一些常见的“陷阱”需要注意：

混淆 . 和 [] 的使用场景：
- .key：用于访问对象中标准键名的属性。
- ['key-with-special-chars']：当键名包含空格、连字符等特殊字符时，或者键名是变量时，必须使用方括号加引号的形式。
- [index]：用于访问数组元素。
- 我当年就是遇到键名带中划线，用点号怎么都取不到值，最后发现是语法问题。
忽略 jsonpath 返回的是 Match 对象列表：
- jsonpath_ng 的 find() 方法返回的是 Match 对象的列表，每个 Match 对象包含 path (匹配到的路径) 和 value (匹配到的实际值)。
- 初学者常常忘记 .value，直接操作 Match 对象，导致 AttributeError 或拿到一堆看起来像内存地址的奇怪输出。切记要用 [match.value for match in ...] 这种列表推导式或循环来提取实际数据。
过度使用递归下降 ..：
- .. 确实很方便，可以查找所有层级的匹配项。但在数据结构已知，且层级不深的情况下，精确路径查询（如 $.store.book[*].title）通常效率更高，并且能更准确地控制返回结果。
- 如果数据量特别大，频繁使用 .. 可能会导致性能问题，尤其是在非常复杂的 JSON 结构中。我曾经在处理一个上百兆的 JSON 日志文件时，因为滥用 .. 导致程序运行缓慢，后来优化成精确路径后速度提升了好几倍。
复杂条件表达式的调试：
- [?(expression)] 里的条件表达式有时候写起来会比较复杂，尤其是涉及多个 && 和 || 时。
- 调试时，建议从小范围、简单的条件开始测试，逐步增加复杂度。同时，确保 expression 中引用的字段确实存在于当前 Match 对象中，否则可能会过滤掉本应保留的数据。

jsonpath 库，尤其是 jsonpath-ng，是 Python 处理复杂 JSON 数据时的一把利器。它能显著提升代码的简洁性、可读性和可维护性，将原本需要多层循环才能实现的数据提取逻辑，简化为一行声明式表达式。特别是在处理来自 API、配置文件或日志中那些结构多变、嵌套层级深的 JSON 数据时，它的优势尤为明显。

我试过多种 JSON 数据处理方法，jsonpath 在处理 10 万级甚至百万级数据、且需要复杂筛选和提取的场景下，效率和代码优雅度都表现突出。大家可以根据自己的数据量和项目需求，灵活选择。强烈建议你在实际项目中尝试一下，感受它带来的便利。

你平时都是怎么处理复杂 JSON 数据的呢？有没有遇到过什么特别的坑？欢迎在评论区分享你的经验和看法！

正文完