用 Python 处理 JSON/XML 数据：高效解析与格式转换的艺术

6次阅读

共计 9233 个字符，预计需要花费 24 分钟才能阅读完成。

在当今数字化的浪潮中，数据无疑是最宝贵的资产。无论是构建复杂的后端服务，进行数据分析，还是与第三方 API 进行交互，我们都离不开对结构化数据的处理。其中，JSON (JavaScript Object Notation) 和 XML (Extensible Markup Language) 作为两种最流行的数据交换格式，几乎无处不在。它们以其简洁或严谨的结构，承载着信息在不同系统间流通的重任。

对于开发者而言，高效、准确地解析和转换这两种数据格式，是日常工作中不可或缺的技能。Python，凭借其简洁的语法、强大的标准库和丰富的第三方库生态，成为了处理 JSON/XML 数据的理想选择。它不仅能够帮助我们轻松地读取、解析、修改这些数据，还能在它们之间进行灵活的格式转换，从而打破数据孤岛，实现不同系统间无缝的数据流转。

本文将深入探讨如何使用 Python，特别是其内置模块，来高效处理 JSON 和 XML 数据。我们将从基础的解析和生成，到复杂的数据结构导航和修改，再到不同格式间的数据转换策略，为你提供一份全面且实用的指南。无论你是数据工程师、后端开发者，还是数据分析师，掌握这些技巧都将极大地提升你的工作效率和数据处理能力。

JSON 以其轻量级和易于阅读的特性，已经成为 Web 服务和 API 的首选数据交换格式。Python 对 JSON 的支持非常友好，主要通过内置的 json 模块实现。

json 模块提供了两种主要的解析方法：json.loads() 用于从字符串加载 JSON 数据，以及 json.load() 用于从文件对象加载 JSON 数据。它们都将 JSON 数据转换为 Python 字典或列表。

import json

# JSON 字符串示例
json_string = '''{"name":"Alice","age": 30,"isStudent": false,"courses": ["Math","Physics"],"address": {"street":"123 Main St","city":"New York"}
}
'''

# 1. 从字符串解析 JSON
data = json.loads(json_string)
print("解析后的 Python 对象 ( 来自字符串):", data)
print("姓名:", data['name'])
print("第一门课程:", data['courses'][0])
print("-" * 30)

# 2. 从文件解析 JSON
# 首先，创建一个示例 JSON 文件
with open('example.json', 'w', encoding='utf-8') as f:
    f.write(json_string)

with open('example.json', 'r', encoding='utf-8') as f:
    file_data = json.load(f)
print("解析后的 Python 对象 ( 来自文件):", file_data)
print("地址的城市:", file_data['address']['city'])
print("-" * 30)

解析后的 JSON 数据通常是 Python 字典和列表的组合，因此你可以使用标准的字典键和列表索引来访问数据。对于嵌套结构，只需链式访问即可。

# 访问嵌套数据
city = data['address']['city']
print(f"城市: {city}")

# 遍历列表
print("课程列表:")
for course in data['courses']:
    print(f"- {course}")

# 遍历字典的所有键值对
print("所有属性:")
for key, value in data.items():
    print(f"{key}: {value}")
print("-" * 30)

要修改 JSON 数据，只需像操作普通的 Python 字典和列表一样即可。生成 JSON 数据则使用 json.dumps() 将 Python 对象转换为 JSON 字符串，或使用 json.dump() 将 Python 对象写入文件。

# 修改数据
data['age'] = 31
data['courses'].append('Chemistry')
data['address']['zipCode'] = '10001'

# 添加新键
data['email'] = '[email protected]'

print("修改后的数据:", data)

# 1. 将 Python 对象转换回 JSON 字符串
# indent 参数用于格式化输出，使其更具可读性
new_json_string = json.dumps(data, indent=4, ensure_ascii=False)
print("n 修改后并格式化输出的 JSON 字符串:")
print(new_json_string)
print("-" * 30)

# 2. 将 Python 对象写入 JSON 文件
with open('updated_example.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, indent=4, ensure_ascii=False)
print("修改后的数据已写入 updated_example.json 文件。")
print("-" * 30)

ensure_ascii=False 参数对于包含非 ASCII 字符（如中文）的 JSON 数据至关重要，它可以防止这些字符被编码为 uXXXX 形式，从而保持可读性。

对于内存受限或文件极大的情况，一次性加载整个 JSON 文件可能会导致内存溢出。Python 的 json 模块本身不直接支持流式解析大型 JSON 文件。然而，可以通过迭代地读取文件行或使用第三方库（如 ijson）来实现流式解析，尤其是当 JSON 文件结构允许按行处理时（例如，每一行都是一个独立的 JSON 对象）。

XML 是一种更为严谨和结构化的数据格式，广泛应用于配置、文档和数据交换。Python 标准库中处理 XML 的主要模块是 xml.etree.ElementTree（通常简写为 ET）。它提供了一个简单而高效的 API 来解析和操作 XML 文档。

ElementTree 将 XML 文档视为一个树状结构，其中每个 XML 标签都对应一个 Element 对象。这个对象包含了标签名、属性、文本内容以及子元素。

与 JSON 类似，ElementTree 提供了从字符串和文件解析 XML 的方法。

import xml.etree.ElementTree as ET

# XML 字符串示例
xml_string = '''
<catalog>
    <book id="bk101">
        <author>Gambardella, Matthew</author>
        <title>XML Developer's Guide</title>
        <genre>Computer</genre>
        <price>44.95</price>
        <publish_date>2000-10-01</publish_date>
        <description>An in-depth look at creating applications with XML.</description>
    </book>
    <book id="bk102">
        <author>Ralls, Kim</author>
        <title>Midnight Rain</title>
        <genre>Fantasy</genre>
        <price>5.95</price>
        <publish_date>2000-12-16</publish_date>
        <description>A young man's search for love in a post-apocalyptic world.</description>
    </book>
</catalog>
'''

# 1. 从字符串解析 XML
root = ET.fromstring(xml_string)
print("根元素标签:", root.tag)
print("-" * 30)

# 2. 从文件解析 XML
# 首先，创建一个示例 XML 文件
with open('example.xml', 'w', encoding='utf-8') as f:
    f.write(xml_string)

tree = ET.parse('example.xml')
root_from_file = tree.getroot()
print("文件解析后的根元素标签:", root_from_file.tag)
print("-" * 30)

ElementTree 提供了多种方法来遍历和查找 XML 元素：

find(): 查找第一个匹配的子元素。
findall(): 查找所有匹配的子元素。
iter(): 迭代所有后代元素。
get(): 获取元素的属性值。
.text: 获取元素的文本内容。
.tag: 获取元素的标签名。

# 查找所有 <book> 元素
for book in root.findall('book'):
    book_id = book.get('id') # 获取属性
    title = book.find('title').text # 获取子元素的文本
    author = book.find('author').text
    print(f"书 ID: {book_id}, 标题: {title}, 作者: {author}")

print("-" * 30)

# 查找特定条件下的元素 (例如，价格高于 20 的书)
print("价格高于 20 的书:")
for book in root.findall('book'):
    price_elem = book.find('price')
    if price_elem is not None and float(price_elem.text) > 20.0:
        print(f"- {book.find('title').text} ({book.get('id')})")
print("-" * 30)

使用 ElementTree 也可以轻松地创建新的 XML 结构或修改现有结构。

# 创建一个新的 XML 元素
new_book = ET.Element('book', id='bk103') # 标签名和属性
ET.SubElement(new_book, 'author').text = 'Doe, John' # 添加子元素和文本
ET.SubElement(new_book, 'title').text = 'The Python Journey'
ET.SubElement(new_book, 'genre').text = 'Programming'
ET.SubElement(new_book, 'price').text = '35.00'

# 将新元素添加到根元素
root.append(new_book)

# 修改现有元素
book_to_update = root.find("book[@id='bk101']") # 使用 XPath 语法查找
if book_to_update:
    price_elem = book_to_update.find('price')
    if price_elem is not None:
        price_elem.text = '49.99' # 更新价格
        print(f"书 ID bk101 的价格已更新为 {price_elem.text}")

# 移除元素
book_to_remove = root.find("book[@id='bk102']")
if book_to_remove is not None:
    root.remove(book_to_remove)
    print("书 ID bk102 已被移除。")

# 将修改后的 XML 树写入文件
tree_updated = ET.ElementTree(root)
tree_updated.write('updated_example.xml', encoding='utf-8', xml_declaration=True)
print("n 修改后的 XML 数据已写入 updated_example.xml 文件。")
print("-" * 30)

xml_declaration=True 会在输出的 XML 文件顶部添加标准的 <?xml version="1.0" encoding="utf-8"?> 声明。

对于更复杂的 XML 查询和操作，特别是当需要进行高性能处理时，lxml 是一个非常强大的第三方库。它提供了对 XPath 语言的完整支持，可以让你用简洁的表达式定位 XML 树中的任何节点。

例如，使用 lxml 查找所有价格高于 20 的书的标题：

# from lxml import etree # 假设已安装 lxml
# tree = etree.parse('example.xml')
# titles = tree.xpath("//book[price > 20]/title/text()")
# print(titles)

虽然 ElementTree 自身也支持有限的 XPath 子集，但 lxml 在功能和性能上都更胜一筹。

在异构系统集成中，JSON 和 XML 之间的数据转换是常见需求。由于它们的结构特点不同，转换通常需要一些映射逻辑。

XML 通常具有更丰富的结构语义，如属性、文本内容和多层嵌套。将其转换为 JSON 时，需要决定如何映射这些特性。一种常见的策略是：

XML 元素名映射为 JSON 键。
XML 属性映射为 JSON 键，通常带有前缀（如 @）。
XML 文本内容映射为 JSON 值，通常带有前缀（如 #text）。
多个同名 XML 子元素转换为 JSON 数组。

这是一个简单的 XML 到 JSON 转换的示例：

def xml_to_json(element):
    """递归地将 ElementTree 元素转换为 JSON 兼容的字典"""
    result = {}

    # 处理属性
    if element.attrib:
        for key, value in element.attrib.items():
            result['@' + key] = value

    # 处理子元素
    children = list(element)
    if children:
        for child in children:
            child_json = xml_to_json(child)
            if child.tag in result:
                # 如果已存在同名子元素，则转换为列表
                if not isinstance(result[child.tag], list):
                    result[child.tag] = [result[child.tag]]
                result[child.tag].append(child_json)
            else:
                result[child.tag] = child_json

    # 处理文本内容
    if element.text and element.text.strip():
        text_content = element.text.strip()
        if len(result) > 0: # 如果有属性或子元素，将文本作为特殊键处理
            result['#text'] = text_content
        else: # 否则，直接作为值
            result = text_content

    return result

# 再次解析 XML 字符串
xml_root = ET.fromstring(xml_string)
json_output = xml_to_json(xml_root)
print("nXML 转换为 JSON:")
print(json.dumps(json_output, indent=4, ensure_ascii=False))
print("-" * 30)

此转换器是一个简化版本，实际应用中可能需要更复杂的规则来处理 CDATA、命名空间、混合内容等。

将 JSON 转换为 XML 通常更为直接，因为 XML 的结构表达能力更强。基本策略是：

JSON 字典键映射为 XML 元素名。
JSON 数组映射为一系列同名 XML 元素。
简单 JSON 值（字符串、数字、布尔）映射为 XML 元素的文本内容。
如果 JSON 键是特殊字符开头的（如 @ 或 #text），可以将其转换为 XML 属性或文本内容。

def json_to_xml(parent_element, json_data, tag_name=None):
    """递归地将 JSON 数据转换为 ElementTree 元素"""
    if isinstance(json_data, dict):
        current_element = ET.SubElement(parent_element, tag_name) if tag_name else parent_element

        for key, value in json_data.items():
            if key.startswith('@'): # 映射为属性
                current_element.set(key[1:], str(value))
            elif key == '#text': # 映射为文本内容
                current_element.text = str(value)
            else: # 映射为子元素
                json_to_xml(current_element, value, key)
    elif isinstance(json_data, list):
        for item in json_data:
            json_to_xml(parent_element, item, tag_name) # 列表中的每个项都是同名子元素
    else: # 简单值
        if tag_name:
            ET.SubElement(parent_element, tag_name).text = str(json_data)
        else: # 如果没有 tag_name，直接设置父元素的文本 (通常用于根元素的简单值)
            parent_element.text = str(json_data)

# 使用前面生成的 JSON 数据
json_data_for_xml = {
    "catalog": {
        "book": [{"@id": "bk101", "author": "Gambardella, Matthew", "title": "XML Developer's Guide","genre":"Computer","price":"44.95"},
            {"@id": "bk103", "author": "Doe, John", "title": "The Python Journey", "genre": "Programming", "price": "35.00"}
        ]
    }
}

# 创建一个根元素作为起点
new_xml_root = ET.Element("root") # 可以是任何标签，这里为了演示方便
json_to_xml(new_xml_root, json_data_for_xml)

# 获取实际的顶层元素
final_xml_root = new_xml_root[0] if new_xml_root else new_xml_root # 假设顶层只有一个元素

tree_from_json = ET.ElementTree(final_xml_root)
tree_from_json.write('json_to_xml_output.xml', encoding='utf-8', xml_declaration=True)
print("nJSON 转换为 XML 已写入 json_to_xml_output.xml 文件。")

数据类型映射： JSON 原生支持布尔、数字、字符串等，而 XML 文本都是字符串。转换时需要注意数据类型的一致性。
结构扁平化 vs. 嵌套： XML 可以通过属性和子元素来表示数据，JSON 更多使用嵌套字典。选择合适的映射方式至关重要。
命名冲突： XML 和 JSON 对键名 / 标签名有不同的命名规则，转换时可能需要处理非法字符或冲突。
复杂场景： 命名空间、CDATASect、注释等 XML 特有结构，以及 JSON 中的 null 值，在转换时都需要精心处理。

对于复杂的转换，考虑使用成熟的第三方库，如 xmltodict（XML 转字典，再转 JSON 易于处理）或自定义一套完整的映射规则。

在处理外部数据时，数据格式不规范或缺失是常态。使用 try-except 块来捕获解析错误（如 json.JSONDecodeError 或 ET.ParseError）和键值查找错误（如 KeyError、AttributeError），可以显著提高程序的健壮性。

try:
    malformed_json = "{'name':'invalid" # 格式错误的 JSON
    data = json.loads(malformed_json)
except json.JSONDecodeError as e:
    print(f"JSON 解析错误: {e}")

try:
    non_existent_key = data['non_existent_key']
except KeyError:
    print("尝试访问不存在的 JSON 键。")

try:
    malformed_xml = "<root><item>text</item</root>"
    ET.fromstring(malformed_xml)
except ET.ParseError as e:
    print(f"XML 解析错误: {e}")

对于非常大的文件（GB 级别），一次性加载到内存中是不可行的。

XML: ElementTree 支持迭代解析（ET.iterparse()），可以在解析过程中处理元素，而无需将整个树存储在内存中。对于超大型文件，SAX 解析器（xml.sax）提供了更底层的事件驱动解析，但使用起来更复杂。
JSON: 虽然 json 模块没有内置流式解析功能，但第三方库 ijson 提供了类似于 SAX 的事件驱动或生成器方式来解析大型 JSON 文件，非常适合处理大数据流。

将数据处理逻辑封装成函数或类，提高代码的模块化和复用性。使用有意义的变量名，添加注释，并遵循 PEP 8 规范，都可以让代码更易于理解和维护。

通过本文的深入探讨，我们已经了解了如何利用 Python 及其强大的标准库 json 和 xml.etree.ElementTree 来高效地处理 JSON 和 XML 数据。从基础的解析、导航、修改到复杂的格式转换，Python 都提供了简洁而强大的工具。

掌握这些技能，你将能够：

轻松地与各种 Web API 进行数据交互。
处理配置文件和日志文件。
进行数据清洗、转换和分析。
实现不同系统之间的数据集成。

数据是现代世界的命脉，而 Python 则是驾驭这些数据的强大引擎。希望本文能为你提供一个坚实的基础，鼓励你继续探索 Python 在数据处理领域的无限可能，解锁更多的数据潜能！

正文完

发表至： Python

近两天内

0

告别爬虫困境：Python requests+BeautifulSoup 高效爬取与实用避坑指南

Python 基础入门 Day37：集成学习初探（随机森林 & 梯度提升树）

Python 异常处理最佳实践：try-except 设计与高效日志记录

Python 大文件处理与数据流优化：深入理解生成器与迭代器如何避免内存瓶颈

Python 操作 Redis 缓存与分布式锁：解锁高性能与并发控制的秘诀

用 Python 处理 JSON/XML 数据：高效解析与格式转换的艺术

引言：数据世界的基石

Python 处理 JSON 数据：简洁与强大并存

加载与解析 JSON

访问与遍历 JSON 数据

修改与生成 JSON 数据

处理大型 JSON 文件

Python 处理 XML 数据：结构化数据的利器

ElementTree 模块简介

解析 XML 文档

查找与导航 XML 元素

创建与修改 XML 文档

高级 XML 处理：XPath 与 lxml

JSON 与 XML 之间的数据转换：打破数据壁垒

XML 到 JSON 的转换逻辑

JSON 到 XML 的转换逻辑

转换挑战与注意事项

性能优化与最佳实践：让数据处理更上一层楼

错误处理与健壮性

流式解析与内存管理

代码组织与可读性

结语：解锁数据潜能

深度解析：基于 PyTorch 实现图像分类——从数据集构建到模型训练部署全攻略

Python 基础入门 Day33 —— 并发与多线程编程

Python 基础入门 Day34：使用类方法与静态方法

开启 Google Cloud 实例的 Root 远程登录权限

Python 基础入门 Day35

Python 基础入门 Day36

Python 基础入门 Day37：集成学习初探（随机森林 & 梯度提升树）

隐藏 nodeloc等类似论坛广告和欢迎横幅油猴脚本

Python 基础入门 Day38：Flask 入门实践（一）搭建你的第一个 Web 应用

Python 基础入门 Day39：Pandas 数据可视化初探