用 Python 处理 JSON/XML 数据：高效解析与格式转换

229次阅读

共计 11792 个字符，预计需要花费 30 分钟才能阅读完成。

在当今数字时代，数据是驱动一切的燃料。而数据的交换与存储，无论是通过 Web API、配置文件、消息队列还是日志文件，JSON (JavaScript Object Notation) 和 XML (Extensible Markup Language) 无疑是其中最核心、最普遍的两种格式。它们各自拥有独特的优势，被广泛应用于不同的场景。然而，手动处理这些结构化数据不仅效率低下，还极易出错。

幸运的是，Python 作为一门以简洁和强大著称的编程语言，为我们处理 JSON 和 XML 数据提供了无与伦比的便利和效率。无论是数据的解析、提取、修改，还是不同格式之间的转换，Python 都能游刃有余。本文将深入探讨如何利用 Python 高效地处理 JSON 和 XML 数据，包括其核心库的使用、进阶技巧以及格式转换的最佳实践，助您轻松驾驭数据洪流。

在深入技术细节之前，我们先快速回顾一下 JSON 和 XML 为何如此盛行。

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它易于人阅读和编写，也易于机器解析和生成。JSON 基于 JavaScript 编程语言的一个子集，但它是完全独立于语言的。JSON 广泛应用于 Web API (RESTful API)、移动应用与服务器之间的数据传输、配置文件以及日志记录等场景。其结构清晰，通常由键值对和数组组成，非常直观。

XML (Extensible Markup Language) 是一种标记语言，旨在传输和存储数据。它设计用于描述数据，并着重于数据的结构化和层次性。XML 的强大之处在于其可扩展性，用户可以根据自己的需求定义任何标签。它在 SOAP Web Services、文档存储、数据交换（尤其是在企业级应用中）以及一些旧系统集成方面仍占据重要地位。XML 支持 schema 定义，可以严格验证数据的结构和类型，这在一些需要高数据完整性的场景中非常重要。

尽管 JSON 因其简洁性在 Web 开发领域越来越受欢迎，但 XML 凭借其强大的结构描述能力和广泛的生态系统，在许多领域仍然不可或缺。因此，掌握 Python 处理这两种数据格式的能力，是现代开发者和数据工作者的必备技能。

Python 标准库提供了一个名为 json 的内置模块，用于处理 JSON 数据。它功能强大且易于使用，能够将 JSON 字符串或文件与 Python 字典和列表之间进行无缝转换。

核心模块：`json`

首先，我们需要导入 json 模块：

import json

json 模块提供了两种主要的解析函数：loads() (load string) 和 load() (load file)。

从 JSON 字符串解析到 Python 对象 (loads)

json.loads() 函数接收一个 JSON 格式的字符串，并将其转换为对应的 Python 对象（通常是字典或列表）。

json_string = '''{"name":" 张三 ","age": 30,"isStudent": false,"courses": ["Python 编程 "," 数据结构 "],"address": {"street":" 人民路 123 号 ","city":" 北京 ","zipCode":"100000"}
}
'''

try:
    data = json.loads(json_string)
    print("解析后的数据类型:", type(data))
    print("姓名:", data['name'])
    print("城市:", data['address']['city'])
    print("第一门课程:", data['courses'][0])
except json.JSONDecodeError as e:
    print(f"JSON 解析错误: {e}")

从 JSON 文件解析到 Python 对象 (load)

json.load() 函数接收一个文件对象，从文件中读取 JSON 数据并将其解析为 Python 对象。

# 首先，创建一个 JSON 文件
with open('data.json', 'w', encoding='utf-8') as f:
    f.write(json_string) # 使用上面定义的 json_string

# 从文件加载 JSON 数据
with open('data.json', 'r', encoding='utf-8') as f:
    file_data = json.load(f)
    print("n 从文件加载的数据:")
    print(file_data['name'])

同样地，json 模块也提供了两种主要的生成函数：dumps() (dump string) 和 dump() (dump file)。

从 Python 对象生成 JSON 字符串 (dumps)

json.dumps() 函数将 Python 对象（字典、列表等）转换为 JSON 格式的字符串。

python_data = {
    "product_id": "P001",
    "product_name": "智能手机",
    "price": 4999.99,
    "features": ["5G", "AI 拍照", "超长续航"],
    "availability": True
}

json_output_string = json.dumps(python_data)
print("n 生成的 JSON 字符串:", json_output_string)

# 为了可读性，可以使用 indent 参数进行美化
pretty_json_output = json.dumps(python_data, indent=4, ensure_ascii=False)
print("n 美化后的 JSON 字符串:n", pretty_json_output)

# sort_keys 参数可以确保输出的键是按字母顺序排列的
sorted_json_output = json.dumps(python_data, indent=4, sort_keys=True, ensure_ascii=False)
print("n 按键排序的美化 JSON 字符串:n", sorted_json_output)

ensure_ascii=False 是为了确保中文字符不被编码为 ASCII 序列，从而保持可读性。

从 Python 对象生成 JSON 文件 (dump)

json.dump() 函数将 Python 对象写入文件，将其转换为 JSON 格式。

output_data = {
    "report_date": "2023-10-27",
    "total_sales": 125000,
    "top_sellers": ["Laptop", "Monitor", "Keyboard"]
}

with open('report.json', 'w', encoding='utf-8') as f:
    json.dump(output_data, f, indent=4, ensure_ascii=False)

print("n'report.json'文件已生成。")

数据访问与修改 : JSON 数据解析后就是 Python 的字典和列表，因此可以像操作普通 Python 数据结构一样进行访问、遍历和修改。

data = json.loads(json_string) # 使用之前的 json_string
data['age'] = 31 # 修改年龄
data['address']['city'] = "上海" # 修改城市
data['courses'].append("机器学习") # 添加课程
print("n 修改后的数据:", json.dumps(data, indent=4, ensure_ascii=False))

自定义序列化 : 有时 Python 对象中包含 datetime 对象、自定义类的实例等，这些对象默认情况下是不能直接被 json 模块序列化的。这时，我们可以通过 default 参数提供一个函数来处理这些特殊类型。

import datetime

class MyCustomObject:
    def __init__(self, value):
        self.value = value
    def to_json(self):
        return f"CustomObject({self.value})"

def custom_serializer(obj):
    if isinstance(obj, datetime.datetime):
        return obj.isoformat()
    if isinstance(obj, MyCustomObject):
        return obj.to_json()
    raise TypeError(f"Object of type {obj.__class__.__name__} is not JSON serializable")

mixed_data = {"timestamp": datetime.datetime.now(),
    "item": "Test Item",
    "custom_data": MyCustomObject("Hello World")
}

serialized_mixed_data = json.dumps(mixed_data, indent=4, default=custom_serializer, ensure_ascii=False)
print("n 自定义序列化结果:n", serialized_mixed_data)

Python 也为处理 XML 数据提供了强大的工具。标准库中的 xml.etree.ElementTree 模块（通常简称为 ET）是处理 XML 最常用的方式，它提供了一个轻量级的、Pythonic 的 API 来解析和操作 XML 文档。

核心模块：`xml.etree.ElementTree`

首先，导入 ElementTree 模块：

import xml.etree.ElementTree as ET

与 json 模块类似，ElementTree 也有从字符串和文件解析的方法。

从 XML 字符串解析到 ElementTree 对象 (fromstring)

ET.fromstring() 函数接收一个 XML 格式的字符串，并返回一个 Element 对象，代表 XML 树的根节点。

xml_string = '''
<catalog>
    <book id="bk101">
        <author>Gambardella, Matthew</author>
        <title>XML Developer's Guide</title>
        <genre>Computer</genre>
        <price>44.95</price>
        <publish_date>2000-10-01</publish_date>
        <description>An in-depth look at creating applications with XML.</description>
    </book>
    <book id="bk102">
        <author>Ralls, Kim</author>
        <title>Midnight Rain</title>
        <genre>Fantasy</genre>
        <price>5.95</price>
        <publish_date>2000-12-16</publish_date>
        <description>A young woman wins a poetry competition and discovers an ancient mystery.</description>
    </book>
</catalog>
'''

root = ET.fromstring(xml_string)
print("nXML 根节点标签:", root.tag)

# 遍历所有 book 元素
for book in root.findall('book'):
    book_id = book.get('id')
    title = book.find('title').text
    author = book.find('author').text
    print(f"ID: {book_id}, 标题: {title}, 作者: {author}")

从 XML 文件解析到 ElementTree 对象 (parse)

ET.parse() 函数接收一个 XML 文件路径或文件对象，返回一个 ElementTree 对象，其 getroot() 方法可以获取根节点。

# 首先，创建一个 XML 文件
with open('catalog.xml', 'w', encoding='utf-8') as f:
    f.write(xml_string)

# 从文件解析 XML
tree = ET.parse('catalog.xml')
root_from_file = tree.getroot()
print("n 从文件解析的 XML 根节点标签:", root_from_file.tag)

# 访问特定元素
first_book = root_from_file.find('book')
if first_book:
    print("第一本书的标题:", first_book.find('title').text)

查找元素 : Element 对象提供了 find() (查找第一个匹配的子元素)、findall() (查找所有匹配的子元素) 和 iter() (迭代所有子孙元素) 方法。它们支持简单的 XPath-like 路径表达式。

# 查找所有价格高于 20 的书籍
for book in root.findall('book'):
    price_str = book.find('price').text
    if float(price_str) > 20:
        print(f"价格高于 20 的书籍: {book.find('title').text} (价格: {price_str})")

修改 XML 数据 : 可以修改元素的文本内容、属性，也可以添加或删除子元素。

# 修改第一本书的标题和价格
first_book_to_modify = root.find('book')
if first_book_to_modify:
    first_book_to_modify.find('title').text = "New XML Developer's Guide"first_book_to_modify.find('price').text ="55.00"
    # 添加一个属性
    first_book_to_modify.set('currency', 'USD')

# 添加一本新书
new_book = ET.SubElement(root, 'book', id='bk103')
ET.SubElement(new_book, 'author').text = "Doe, Jane"
ET.SubElement(new_book, 'title').text = "Python for Data"
ET.SubElement(new_book, 'genre').text = "Programming"
ET.SubElement(new_book, 'price').text = "39.99"
ET.SubElement(new_book, 'publish_date').text = "2023-01-01"
ET.SubElement(new_book, 'description').text = "Learn Python for data processing."

# 打印修改后的 XML (注意 ElementTree 默认输出不是美化的)
print("n 修改和添加后的 XML ( 未美化):n", ET.tostring(root, encoding='unicode'))

生成 XML 文件 : 可以将修改后的 ElementTree 对象写回文件。
```
tree.write('updated_catalog.xml', encoding='utf-8', xml_declaration=True)
print("n'updated_catalog.xml'文件已生成。")
```
请注意，ElementTree 模块的 write() 方法默认不会进行美化排版。如果需要美化，通常需要借助于第三方库或手动实现。

第三方库：`lxml` (高效与强大)

虽然 xml.etree.ElementTree 已经非常实用，但在处理大型或复杂的 XML 文件时，或者需要更高级的 XPath/XSLT 功能时，第三方库 lxml 是一个更优的选择。lxml 是一个功能强大且高性能的 XML 和 HTML 处理库，它结合了 C 语言库 libxml2 和 libxslt 的速度和功能，并提供了 Pythonic 的 API。

lxml 的优势 :

性能优异 : 基于 C 库实现，解析速度比 ElementTree 快得多。
完整的 XPath 支持 : 支持 XPath 1.0/2.0，可以进行更复杂的节点查找和选择。
XSLT 支持 : 可以用于 XML 转换。
XML Schema 和 DTD 验证 : 提供了强大的验证功能。
更友好的 API: 许多操作更直观。

安装 lxml:

pip install lxml

使用 lxml 解析和查找的示例：

from lxml import etree

# 从字符串解析 XML
root_lxml = etree.fromstring(xml_string) # 使用之前的 xml_string
print("nlxml 解析的根节点:", root_lxml.tag)

# 使用 XPath 查找所有 genre 为 'Computer' 的书籍标题
computer_titles = root_lxml.xpath("//book[genre='Computer']/title/text()")
print("Computer 类书籍标题 (lxml XPath):", computer_titles)

# 使用 lxml 的 prettify() 方法美化输出
print("nlxml 美化后的 XML:n", etree.tostring(root_lxml, pretty_print=True, encoding='unicode'))

lxml 的 xpath 方法比 ElementTree 的 find/findall 提供了更强大的查询能力，可以显著简化复杂查询的代码。

在不同的系统间进行数据交互时，JSON 和 XML 格式的转换是常见的需求。Python 提供了灵活的方式来手动或借助库实现这种转换。

将 XML 转换为 JSON 并没有一个内置的标准方法，因为 XML 的结构（如属性、混合内容、命名空间）比 JSON 更复杂。通常，我们需要将 XML 解析为 Python 字典（或其他适合的结构），然后将字典序列化为 JSON。

第三方库 xmltodict 是一个非常优秀的工具，可以轻松地将 XML 转换为 Python 字典，然后利用 json 模块将其转换为 JSON 字符串。

安装 xmltodict:

pip install xmltodict

import xmltodict
import json

xml_data = '''
<root>
    <person id="123">
        <name>Alice</name>
        <age>30</age>
        <contacts>
            <email type="work">[email protected]</email>
            <phone>123-456-7890</phone>
        </contacts>
    </person>
    <item>
        <name>Laptop</name>
        <price>1200</price>
    </item>
</root>
'''

# 将 XML 转换为 Python 字典
ordered_dict = xmltodict.parse(xml_data)
# xmltodict 返回的是 OrderedDict，可以进一步转换为普通字典
dict_data = json.loads(json.dumps(ordered_dict)) # 通过 json 的 dumps/loads 技巧转换为普通字典

print("nXML 转换为 Python 字典:n", json.dumps(dict_data, indent=4, ensure_ascii=False))

# 将 Python 字典转换为 JSON 字符串
json_output = json.dumps(dict_data, indent=4, ensure_ascii=False)
print("nXML 转换为 JSON:n", json_output)

xmltodict 会智能地处理 XML 属性（通常加 @ 前缀），并将子元素作为字典的键。

从 JSON 到 XML 的转换同样没有内置的直接方法。通常，我们会将 JSON 解析为 Python 字典，然后遍历这个字典，手动构建 xml.etree.ElementTree 对象。

import json
import xml.etree.ElementTree as ET

json_input = '''{"company": {"name":"Tech Corp","employees": [{"id": "E001", "firstName": "John", "lastName": "Doe"},
            {"id": "E002", "firstName": "Jane", "lastName": "Smith"}
        ],
        "location": "New York"
    }
}
'''

data = json.loads(json_input)

def dict_to_xml(parent, data_dict):
    if isinstance(data_dict, dict):
        for key, value in data_dict.items():
            element = ET.SubElement(parent, key)
            dict_to_xml(element, value)
    elif isinstance(data_dict, list):
        # 对于列表，我们通常为每个元素创建一个同名的标签
        for item in data_dict:
            # 这里假设列表中的每个元素都是一个可以映射到 XML 的字典
            # 例如，对于 employees 列表，每个元素都是一个 employee
            if isinstance(item, dict) and 'id' in item: # 假设列表元素是字典且有唯一标识
                element = ET.SubElement(parent, parent.tag.rstrip('s'), id=item['id']) # 'employees' -> 'employee'
                dict_to_xml(element, {k: v for k, v in item.items() if k != 'id'})
            else:
                element = ET.SubElement(parent, 'item') # 或者其他默认标签
                dict_to_xml(element, item)
    else:
        parent.text = str(data_dict)

# 创建根元素
root_key = list(data.keys())[0] if data else "data"
root = ET.Element(root_key)
dict_to_xml(root, data[root_key]) # 从公司名称开始

# 转换为 XML 字符串，并美化
xml_output = ET.tostring(root, encoding='unicode', pretty_print=True, xml_declaration=True) # lxml.etree 才支持 pretty_print
# 对于 ElementTree，需要手动进行美化，或者利用第三方库，如 lxml
# 如果仅使用 ElementTree:
# xml_output_raw = ET.tostring(root, encoding='unicode', xml_declaration=True)
# print("nJSON 转换为 XML (ET):n", xml_output_raw)

# 使用 lxml 的 tostring 并美化（需要先将 ET 元素转换为 lxml 元素，或者从一开始就用 lxml 构建）# 简化起见，这里假设我们直接使用 lxml
lxml_root = etree.Element(root_key)
# 重新实现 dict_to_xml 以使用 lxml
def dict_to_lxml_xml(parent, data_dict):
    if isinstance(data_dict, dict):
        for key, value in data_dict.items():
            element = etree.SubElement(parent, key)
            dict_to_lxml_xml(element, value)
    elif isinstance(data_dict, list):
        for item in data_dict:
            if isinstance(item, dict) and 'id' in item:
                # 假设 'employees' 对应多个 'employee'
                element = etree.SubElement(parent, parent.tag.rstrip('s'), id=item['id'])
                dict_to_lxml_xml(element, {k: v for k, v in item.items() if k != 'id'})
            else:
                element = etree.SubElement(parent, 'item')
                dict_to_lxml_xml(element, item)
    else:
        parent.text = str(data_dict)

lxml_data = json.loads(json_input)
lxml_root_key = list(lxml_data.keys())[0] if lxml_data else "data"
lxml_root_element = etree.Element(lxml_root_key)
dict_to_lxml_xml(lxml_root_element, lxml_data[lxml_root_key])

print("nJSON 转换为 XML ( 通过 lxml 美化):n", etree.tostring(lxml_root_element, pretty_print=True, encoding='unicode', xml_declaration=True))

此处的 dict_to_xml 函数是一个递归示例，展示了如何将 Python 字典（由 JSON 解析而来）转换为 XML 结构。处理列表时需要根据具体业务逻辑决定如何映射到 XML 元素。

在处理 JSON/XML 数据时，除了正确性，效率和健壮性也至关重要。

选择合适的工具 :
- JSON: 对于大多数情况，Python 的 json 模块已经足够。如果处理超大 JSON 文件（GB 级别），可以考虑 ijson 或 json_stream 等流式解析库，它们不会一次性将整个文件加载到内存中。
- XML: xml.etree.ElementTree 适用于中小型 XML 文件和简单操作。对于大型文件、复杂的 XPath 查询、XML Schema 验证或追求极致性能的场景，强烈推荐使用 lxml。
错误处理 : 数据通常不总是完美的。在解析 JSON/XML 时，务必使用 try-except 块来捕获 json.JSONDecodeError (JSON) 或 xml.etree.ElementTree.ParseError (XML) 等异常，确保程序健壮性。对于 XML，也可能遇到 lxml.etree.XMLSyntaxError。
内存管理 : 处理特大型文件时，一次性将整个文件内容加载到内存中可能会导致内存溢出。
- XML: ElementTree.iterparse() 和 lxml 的 iterparse() 提供了事件驱动的流式解析功能，允许您在解析过程中逐个处理元素，从而降低内存消耗。
- JSON: 如前所述，ijson 和 json_stream 是流式解析 JSON 的好选择。
数据验证 :
- JSON: 可以使用 JSON Schema 库（如 jsonschema）来验证 JSON 数据的结构和类型。
- XML: lxml 支持 XML Schema (XSD) 和 DTD 验证，确保 XML 文档符合预期的结构定义。
安全性 : 在解析来自不可信源的 XML 数据时，要警惕 XML 外部实体注入 (XXE) 等安全漏洞。xml.etree.ElementTree 默认相对安全，但 lxml 或旧版解析器可能需要额外配置来禁用外部实体加载。defusedxml 库提供了安全的 XML 解析器。
可读性与维护性 :
- 生成 JSON 或 XML 时，使用 indent (JSON) 或 pretty_print=True (lxml XML) 参数可以美化输出，提高可读性。
- 保持一致的命名约定，使数据结构更易于理解和维护。

Python 为处理 JSON 和 XML 数据提供了全面、高效且灵活的解决方案。无论是使用内置的 json 和 xml.etree.ElementTree 模块，还是借助强大的第三方库如 lxml 和 xmltodict，开发者都能够轻松地完成数据的解析、操作和转换任务。

通过本文的详细介绍和示例，您应该对如何在 Python 中高效地处理这两种数据格式有了深入的理解。掌握这些技能，将使您在数据交换、系统集成、API 开发等诸多领域中如虎添翼，更加从容地应对各种数据处理挑战。现在，就拿起您的键盘，开始用 Python 探索 JSON 和 XML 数据的无限可能吧！

正文完

发表至： Python

2026-02-02

0

Python基础入门 Day54：FastAPI 中的权限控制与作用域

Python 操作 Redis 缓存：数据存储与分布式锁实现深度解析

Python应用中优雅的配置管理：YAML深度实践与踩坑指南

Python 性能优化技巧：代码重构与 Cython 加速实战

Python 生成器与迭代器：内存优化与无限序列实现的利器

用 Python 处理 JSON/XML 数据：高效解析与格式转换

为什么 JSON 和 XML 如此重要？

Python 处理 JSON 数据

核心模块：`json`

解析 JSON 字符串 / 文件

生成 JSON 字符串 / 文件

进阶操作与技巧

Python 处理 XML 数据

核心模块：`xml.etree.ElementTree`

解析 XML 字符串 / 文件

查找、修改和生成 XML 数据

第三方库：`lxml` (高效与强大)

JSON 与 XML 之间的数据转换

1. XML 到 JSON 的转换

2. JSON 到 XML 的转换

性能考量与最佳实践

总结

Python 正则表达式完全指南：掌握复杂匹配，解锁高级数据处理能力 | 实战案例解析

中医基础理论 Day 18：脾的生理功能与气血生化

Python基础入门 Day46：使用 select 实现多路复用网络通信

Python基础入门 Day47：asyncio 初识与异步编程模型

Python基础入门 Day48：aiohttp 异步 HTTP 请求实战

Python基础入门 Day49：使用 aiohttp 搭建异步 Web 服务

Python基础入门 Day50：使用 FastAPI 构建现代 Web API 服务

Python基础入门 Day51：FastAPI 与 SQLite 实现完整数据接口

Python基础入门 Day52：使用 FastAPI 实现 JWT 用户认证

从零开始：爬虫入门与实践全攻略

用 Python 处理 JSON/XML 数据：高效解析与格式转换

为什么 JSON 和 XML 如此重要？

Python 处理 JSON 数据

核心模块：json

解析 JSON 字符串 / 文件

生成 JSON 字符串 / 文件

进阶操作与技巧

Python 处理 XML 数据

核心模块：xml.etree.ElementTree

解析 XML 字符串 / 文件

查找、修改和生成 XML 数据

第三方库：lxml (高效与强大)

JSON 与 XML 之间的数据转换

1. XML 到 JSON 的转换

2. JSON 到 XML 的转换

性能考量与最佳实践

总结

核心模块：`json`

核心模块：`xml.etree.ElementTree`

第三方库：`lxml` (高效与强大)