用 Python 处理 JSON/XML 数据：高效解析与格式转换——现代数据交互的利器

3次阅读

共计 8871 个字符，预计需要花费 23 分钟才能阅读完成。

在现代软件开发和数据交换领域，JSON (JavaScript Object Notation) 和 XML (Extensible Markup Language) 无疑是两大核心数据格式。它们构成了 Web 服务、API 通信、配置文件以及数据存储的基础。对于开发者而言，高效、准确地处理这两种数据格式，是日常工作中不可或缺的技能。Python，以其简洁的语法和强大的标准库，成为了处理 JSON 和 XML 数据的理想选择。本文将深入探讨如何使用 Python 高效解析这两种数据，并实现它们之间的灵活转换，助您成为数据处理的专家。

JSON 以其轻量级、易读易写的特性，在 Web API 和移动应用开发中占据了主导地位。它基于 JavaScript 编程语言的一个子集，但独立于语言，被多种编程语言广泛支持。

JSON 数据由键值对组成，类似于 Python 的字典和列表。

对象 (Object)：由花括号 {} 包裹，包含无序的键值对。键必须是字符串，值可以是字符串、数字、布尔值、null、对象或数组。
数组 (Array)：由方括号 [] 包裹，包含有序的值序列。

Python 的 `json` 模块

Python 的标准库提供了 json 模块，它封装了所有 JSON 数据的编码（序列化）和解码（反序列化）操作。

当从网络 API 接收到 JSON 字符串时，我们需要将其转换为 Python 可以操作的字典或列表。json.loads() 函数就是为此而生。

import json

# 假设这是一个从 API 获取的 JSON 字符串
json_string = '''{"name":" 张三 ","age": 30,"isStudent": false,"courses": [" 数学 "," 英语 "," 计算机 "],"address": {"city":" 北京 ","zipCode":"100000"},"grades": null
}
'''

# 使用 json.loads() 将 JSON 字符串解析为 Python 字典
python_dict = json.loads(json_string)

print("解析后的 Python 字典类型:", type(python_dict))
print("姓名:", python_dict["name"])
print("年龄:", python_dict["age"])
print("第一门课程:", python_dict["courses"][0])
print("城市:", python_dict["address"]["city"])

# 访问不存在的键会抛出 KeyError，所以通常需要检查或使用 .get()
print("邮编:", python_dict.get("address", {}).get("zipCode"))
print("电话 ( 不存在):", python_dict.get("phone", "N/A"))

json.loads() 将 JSON 对象转换为 Python 字典，JSON 数组转换为 Python 列表，JSON 字符串转换为 Python 字符串，JSON 数字转换为 Python 整数或浮点数，true/false/null 分别转换为 True/False/None。

当我们需要将 Python 数据发送到 Web 服务或保存为 JSON 格式时，json.dumps() 函数可以将 Python 字典或列表转换为 JSON 格式的字符串。

# 一个 Python 字典
python_data = {
    "product_id": "P001",
    "product_name": "智能手机",
    "price": 3999.99,
    "is_available": True,
    "features": ["全面屏", "AI 芯片", "长续航"],
    "manufacturer": {
        "name": "ABC 公司",
        "country": "中国"
    }
}

# 使用 json.dumps() 将 Python 字典序列化为 JSON 字符串
json_output = json.dumps(python_data)
print("n 默认序列化结果:")
print(json_output)

# 为了可读性，可以使用 indent 参数进行美化输出
json_pretty_output = json.dumps(python_data, indent=4, ensure_ascii=False)
print("n 美化后的 JSON 输出 (indent=4, ensure_ascii=False):")
print(json_pretty_output)

indent 参数用于指定缩进级别，使输出的 JSON 更易读。ensure_ascii=False 参数允许 json.dumps() 直接输出非 ASCII 字符（如中文），而不是将其转义为 uXXXX 格式。

json 模块还提供了 json.load() 和 json.dump() 函数，用于直接从文件读取 JSON 数据和向文件写入 JSON 数据。

# 写入 JSON 文件
with open("data.json", "w", encoding="utf-8") as f:
    json.dump(python_data, f, indent=4, ensure_ascii=False)
print("n 数据已写入 data.json 文件。")

# 从 JSON 文件读取
with open("data.json", "r", encoding="utf-8") as f:
    loaded_data = json.load(f)
print("n 从 data.json 读取的数据:")
print(loaded_data)

json.load() 和 json.dump() 接受文件对象作为参数，省去了手动读写文件内容的步骤，更加便捷。

XML 曾是企业级应用和 SOAP Web 服务的主流数据交换格式。尽管 JSON 在 Web 领域后来居上，XML 在许多领域（如配置文件、文档存储、数据集成和特定的行业标准）仍然扮演着重要角色。XML 的优势在于其强大的结构化能力和可扩展性，允许用户自定义标签来描述数据。

XML 文档由元素、属性、文本内容等组成。

元素 (Element)：由开始标签和结束标签组成，例如 <book>...</book>。
属性 (Attribute)：提供元素的额外信息，例如 <book id="123">...</book>。
根元素 (Root Element)：XML 文档必须有一个且只有一个根元素。

Python 的 `xml.etree.ElementTree` 模块

Python 标准库中的 xml.etree.ElementTree（通常简写为 ET）模块提供了一个简单而高效的 API 来解析和操作 XML 数据。它将 XML 文档视为一棵元素树。

使用 ET.fromstring() 解析 XML 字符串，使用 ET.parse() 解析 XML 文件。

import xml.etree.ElementTree as ET

# 假设这是一个 XML 字符串
xml_string = '''
<catalog>
    <book id="bk101">
        <author>Gambardella, Matthew</author>
        <title>XML Developer's Guide</title>
        <genre>Computer</genre>
        <price>44.95</price>
        <publish_date>2000-10-01</publish_date>
        <description>An in-depth look at creating applications with XML.</description>
    </book>
    <book id="bk102">
        <author>Ralls, Kim</author>
        <title>Midnight Rain</title>
        <genre>Fantasy</genre>
        <price>5.95</price>
        <publish_date>2000-12-16</publish_date>
        <description>A former architect battles a powerful sorceress.</description>
    </book>
</catalog>
'''

# 解析 XML 字符串
root = ET.fromstring(xml_string)
print("根元素标签:", root.tag)

# 写入 XML 文件
with open("catalog.xml", "wb") as f:
    f.write(xml_string.encode('utf-8'))
print("nXML 数据已写入 catalog.xml 文件。")

# 解析 XML 文件
tree = ET.parse("catalog.xml")
root_from_file = tree.getroot()
print("从文件解析的根元素标签:", root_from_file.tag)

ET.fromstring() 返回根元素，而 ET.parse() 返回一个 ElementTree 对象，通过 .getroot() 获取根元素。

一旦解析了 XML，我们可以像遍历树一样访问其元素。

# 遍历所有 <book> 元素
print("n 遍历所有书籍:")
for book in root.findall('book'):
    book_id = book.get('id')  # 获取属性
    title = book.find('title').text # 获取子元素的文本内容
    author = book.find('author').text
    print(f"ID: {book_id}, 标题: {title}, 作者: {author}")

# 查找特定元素
first_book_title = root.find('book/title').text
print("n 第一本书的标题:", first_book_title)

# 查找所有 price 元素
prices = [float(elem.text) for elem in root.findall('.//price')]
print("所有书籍的价格:", prices)

root.findall('tag_name')：查找所有直接子元素中标签为 tag_name 的元素。
root.find('tag_name')：查找第一个直接子元素中标签为 tag_name 的元素。
root.find('path/to/tag')：通过路径查找元素。
root.findall('.//tag_name')：查找所有后代元素中标签为 tag_name 的元素 (使用 XPath 的相对路径)。
element.get('attribute_name')：获取元素的属性值。
element.text：获取元素的文本内容。

ElementTree 也支持创建、修改和删除 XML 元素。

# 创建新元素
new_book = ET.Element("book", id="bk103")
ET.SubElement(new_book, "author").text = "Jane Doe"
ET.SubElement(new_book, "title").text = "Python XML Mastery"
ET.SubElement(new_book, "genre").text = "Programming"
ET.SubElement(new_book, "price").text = "29.99"
ET.SubElement(new_book, "publish_date").text = "2023-01-01"
ET.SubElement(new_book, "description").text = "A guide to processing XML with Python."

# 添加到根元素
root.append(new_book)

# 修改元素
for book in root.findall('book'):
    if book.get('id') == 'bk101':
        title_elem = book.find('title')
        title_elem.text = "Python XML Handbook" # 修改文本
        book.set('edition', '2nd') # 添加新属性

# 删除元素
for book in root.findall('book'):
    if book.get('id') == 'bk102':
        root.remove(book) # 从父元素中移除

# 将修改后的 XML 树序列化为字符串
modified_xml_string = ET.tostring(root, encoding='utf-8', xml_declaration=True).decode('utf-8')
print("n 修改后的 XML:")
print(modified_xml_string)

# 写入文件
tree = ET.ElementTree(root)
tree.write('modified_catalog.xml', encoding='utf-8', xml_declaration=True, pretty_print=True)
print("n 修改后的 XML 已写入 modified_catalog.xml 文件。")

ET.tostring() 用于将元素树序列化为字节串，通过 .decode('utf-8') 可转换为字符串。tree.write() 则直接写入文件，pretty_print=True (如果使用 lxml，标准库需要手动格式化 ) 可以美化输出。

4. 更强大的 XML 处理：`lxml` 库

对于复杂的 XML 处理任务，例如高性能解析、XPath 查询、XSLT 转换和 DTD/Schema 验证，推荐使用第三方库 lxml。lxml 基于 C 语言实现，性能卓越，并提供了更完整的 XPath 和 XSLT 支持，API 也更加友好。安装 pip install lxml 即可使用。

在不同的系统间进行数据交换时，经常需要将 JSON 数据转换为 XML，反之亦然。由于这两种格式的结构差异（例如 XML 有属性和命名空间，JSON 没有；XML 强调层次结构，JSON 更偏向键值对），直接的 1:1 映射有时会比较复杂。然而，Python 社区提供了出色的工具来简化这一过程。

将 XML 转换为 JSON 需要处理 XML 的标签、属性和文本内容，并决定如何映射到 JSON 的键值对和数组。一个常见的策略是将 XML 元素映射为 JSON 对象，属性作为对象的键，文本内容作为另一个键（例如 #text）。

第三方库 xmltodict 是一个非常流行且强大的工具，可以轻松将 XML 转换为 Python 字典（然后可以转换为 JSON）。

import xmltodict
import json

xml_data_for_conversion = '''
<root>
    <person id="123">
        <name>Alice</name>
        <age>30</age>
        <emails>
            <email type="work">[email protected]</email>
            <email type="personal">[email protected]</email>
        </emails>
        <address street="Main St" city="New York"/>
    </person>
    <person id="124">
        <name>Bob</name>
        <age>25</age>
    </person>
</root>
'''

# 使用 xmltodict 将 XML 转换为 Python 字典
# default_namespace 为 None 表示不处理命名空间
# force_cdata=True 可以保留 CDATA 内容
# process_namespaces=False 禁用命名空间处理
dict_from_xml = xmltodict.parse(xml_data_for_conversion, attr_prefix='@', cdata_key='#text', process_namespaces=False)

# 将 Python 字典转换为 JSON 字符串
json_from_xml = json.dumps(dict_from_xml, indent=4, ensure_ascii=False)

print("nXML 转 JSON 结果:")
print(json_from_xml)

# 示例解析：# 原始 XML 的属性 @id 会被转换为字典的键 '@id'
# 原始 XML 的文本内容会被转换为字典的键 '#text'
# 多个同名子元素（如 <email>）会被转换为列表
# <address street="Main St" city="New York"/> 这种只有属性没有文本内容的元素，# 会被转换为一个包含属性的字典。

xmltodict 的灵活性在于其配置选项，例如 attr_prefix 可以指定属性键的前缀，cdata_key 可以指定文本内容键的名称。

将 JSON 转换为 XML 同样需要一套映射规则。通常，JSON 对象会被转换为 XML 元素，其键值对成为子元素或属性。JSON 数组则可能被转换为一系列同名元素。

第三方库 dicttoxml 是实现此功能的一个实用选择。

from dicttoxml import dicttoxml
from xml.dom.minidom import parseString # 用于美化 XML 输出

json_data_for_conversion = {
    "catalog": {
        "book": [
            {
                "@id": "bk101",
                "author": "Gambardella, Matthew",
                "title": "XML Developer's Guide","price": 44.95,"features": ["index","illustrations"]
            },
            {
                "@id": "bk102",
                "author": "Ralls, Kim",
                "title": "Midnight Rain",
                "price": 5.95,
                "genre": "Fantasy"
            }
        ]
    }
}

# 使用 dicttoxml 将 Python 字典转换为 XML 字节串
# custom_root='catalog' 可以指定根元素名称
# attr_prefix='@' 可以将带有前缀的键转换为 XML 属性
xml_bytes = dicttoxml(json_data_for_conversion, custom_root='catalog', attr_prefix='@', item_func=lambda x: 'book' if x == 'item' else x)

# 解码为字符串并进行美化
xml_string = parseString(xml_bytes).toprettyxml(indent=" ")

print("nJSON 转 XML 结果:")
print(xml_string)

dicttoxml 允许自定义根元素、属性前缀以及如何处理列表项等，提供了良好的灵活性来生成符合预期的 XML 结构。

在处理外部数据时，始终要考虑数据格式不正确或缺失的情况。使用 try-except 块来捕获解析错误是至关重要的。

import json
import xml.etree.ElementTree as ET

invalid_json = "{'name':'test'}" # 单引号不是合法的 JSON
invalid_xml = "<root><item><item>" # 未闭合的标签

try:
    json.loads(invalid_json)
except json.JSONDecodeError as e:
    print(f"nJSON 解析错误: {e}")

try:
    ET.fromstring(invalid_xml)
except ET.ParseError as e:
    print(f"XML 解析错误: {e}")

对于非常大的 JSON 或 XML 文件，一次性加载到内存可能会导致内存溢出。

XML: ElementTree 提供了 ET.iterparse()，允许您在解析过程中迭代地处理元素，而无需将整个文档加载到内存。
JSON: 对于 JSON，如果文件结构允许（例如，文件是一个 JSON 对象的数组，每个对象可以独立处理），可以逐行读取并处理。但通常 JSON 需要完整解析，对于超大型 JSON 文件，可能需要流式解析器或将文件分割。

在解析来自不受信任源的 XML 时，应警惕 XXE (XML External Entity) 注入等安全漏洞。xml.etree.ElementTree 默认情况下相对安全，但其他 XML 解析库（如 xml.dom）或配置不当的 lxml 可能存在风险。对于关键应用，建议禁用外部实体解析或使用安全的解析模式。

JSON: Python 标准库的 json 模块通常足够。对于高性能需求，可以考虑 ujson 等第三方库。
XML: 对于简单任务，xml.etree.ElementTree 足够。对于复杂的 XPath/XSLT、Schema 验证和高性能要求，lxml 是更佳选择。
转换 : xmltodict 和 dicttoxml 是 JSON/XML 相互转换的利器，强烈推荐。

Python 为处理 JSON 和 XML 数据提供了强大而灵活的工具集。无论是通过内置的 json 模块和 xml.etree.ElementTree，还是借助 xmltodict、dicttoxml 和 lxml 等第三方库，Python 都能让您高效地解析、操作和转换这两种关键数据格式。掌握这些技能，不仅能提升您的数据处理能力，也能让您在构建现代化应用、集成异构系统时游刃有余。深入理解它们的原理和最佳实践，将使您在处理各种数据挑战时更加自信和高效。

正文完

发表至： Python

近一天内

0

基于 Django 搭建博客系统：核心功能揭秘——用户认证与文章评论的实现之道

Python基础入门 Day129 构建异步爬虫框架：动态限速、流量自适应与反封智能化

Python 异常处理最佳实践：try-except 设计与日志记录深度指南

拥抱未来：基于 FastAPI 构建高性能 API 的异步处理与自动文档生成实践

用 Python 实现爬虫代理池：动态 IP 获取、智能验证与高效管理全攻略

用 Python 处理 JSON/XML 数据：高效解析与格式转换——现代数据交互的利器

JSON 数据处理：简洁与高效

JSON 的基本结构

Python 的 `json` 模块

1. 解析 JSON 字符串 (从 JSON 到 Python 对象)

2. 将 Python 对象序列化为 JSON 字符串 (从 Python 到 JSON)

3. 处理 JSON 文件

XML 数据处理：结构化与扩展性

XML 的基本结构

Python 的 `xml.etree.ElementTree` 模块

1. 解析 XML 字符串或文件

2. 遍历和查找元素

3. 修改和创建 XML

4. 更强大的 XML 处理：`lxml` 库

JSON 与 XML 的格式转换

1. XML 转 JSON

2. JSON 转 XML

最佳实践与性能考量

1. 错误处理

2. 处理大型文件

3. 安全性考量

4. 选用合适的库

结论

Python 基础入门 Day34：使用类方法与静态方法

开启 Google Cloud 实例的 Root 远程登录权限

Python 基础入门 Day35

Python 基础入门 Day36

Python 基础入门 Day37：集成学习初探（随机森林 & 梯度提升树）

隐藏 nodeloc等类似论坛广告和欢迎横幅油猴脚本

Python 基础入门 Day38：Flask 入门实践（一）搭建你的第一个 Web 应用

Python 基础入门 Day39：Pandas 数据可视化初探

Python 基础入门 Day40：自动化办公基础 —— 操作 Excel 文件（openpyxl）

Python 基础入门 Day41：异常处理（Exception Handling）基础与实践

用 Python 处理 JSON/XML 数据：高效解析与格式转换——现代数据交互的利器

JSON 数据处理：简洁与高效

JSON 的基本结构

Python 的 json 模块

1. 解析 JSON 字符串 (从 JSON 到 Python 对象)

2. 将 Python 对象序列化为 JSON 字符串 (从 Python 到 JSON)

3. 处理 JSON 文件

XML 数据处理：结构化与扩展性

XML 的基本结构

Python 的 xml.etree.ElementTree 模块

1. 解析 XML 字符串或文件

2. 遍历和查找元素

3. 修改和创建 XML

4. 更强大的 XML 处理：lxml 库

JSON 与 XML 的格式转换

1. XML 转 JSON

2. JSON 转 XML

最佳实践与性能考量

1. 错误处理

2. 处理大型文件

3. 安全性考量

4. 选用合适的库

结论

Python 的 `json` 模块

Python 的 `xml.etree.ElementTree` 模块

4. 更强大的 XML 处理：`lxml` 库