Python 数据处理终极指南：高效解析与格式转换 JSON/XML，从入门到精通

29次阅读

共计 10194 个字符，预计需要花费 26 分钟才能阅读完成。

在当今数据驱动的世界里，数据交换和存储无处不在。从配置信息、API 响应到文档结构，各种应用场景都离不开结构化数据格式。其中，JSON (JavaScript Object Notation) 和 XML (Extensible Markup Language) 无疑是两大主流标准。它们各自以其独特的优势服务于不同的领域：JSON 以其轻量、易读和与 JavaScript 的天然亲和力，成为 Web API 和移动应用的首选；而 XML 则以其严谨的结构、强大的扩展性和对复杂文档的良好支持，在企业级应用、数据集成和配置文件中占据一席之地。

作为一名开发者，无论是处理前端提交的数据、解析第三方 API 的响应、读取复杂的配置文件，还是在不同系统间进行数据转换，掌握 JSON 和 XML 的处理技能都至关重要。而 Python，凭借其简洁的语法、强大的标准库以及丰富的第三方库生态，成为了处理这两种数据格式的理想工具。

本文将带领你深入探索如何使用 Python 高效地解析、操作和转换 JSON 与 XML 数据。我们将从 Python 标准库开始，逐步学习如何进行数据的读取、写入、结构导航和修改，并探讨在 JSON 和 XML 之间进行格式转换的策略。无论你是 Python 新手还是经验丰富的开发者，本文都将为你提供一份全面的指南，助你从容应对各种数据处理挑战。

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。它基于 JavaScript 编程语言的一个子集，但独立于语言。Python 内置了一个功能强大的 json 模块，使得 JSON 数据的处理变得异常简单。

JSON 数据结构主要基于两种类型：

对象 (object)：由键值对组成，键是字符串，值可以是任意 JSON 类型。对应 Python 中的字典（dict）。
数组 (array)：有序的值的集合。对应 Python 中的列表（list）。

此外，JSON 还支持字符串（str）、数字（int, float）、布尔值（true/false）和空值（null），它们分别对应 Python 中的 str、int/float、True/False 和None。

从 JSON 字符串解析到 Python 对象 (`json.loads()`)

当你从网络请求（如 API 响应）中获得 JSON 格式的字符串时，json.loads()（load string 的缩写）是你的首选工具。

import json

json_string = '{"name":"Alice","age": 30,"city":"New York","isStudent": false,"courses": ["Math","Physics"]}'

# 使用 json.loads() 将 JSON 字符串解析为 Python 字典
data = json.loads(json_string)

print(type(data))  # <class 'dict'>
print(data['name']) # Alice
print(data['courses'][0]) # Math

# 尝试访问不存在的键会引发 KeyError
try:
    print(data['email'])
except KeyError as e:
    print(f"Error: {e} not found.")

# 可以遍历数据
for key, value in data.items():
    print(f"{key}: {value}")

从 JSON 文件解析到 Python 对象 (`json.load()`)

当你的 JSON 数据存储在文件中时，json.load()（load file 的缩写）可以直接从文件对象中读取并解析。

import json

# 创建一个示例 JSON 文件
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump({"name": "Bob", "age": 25, "city": "London"}, f, ensure_ascii=False, indent=4)

# 使用 json.load() 从文件读取 JSON 数据
with open('data.json', 'r', encoding='utf-8') as f:
    file_data = json.load(f)

print(file_data) # {'name': 'Bob', 'age': 25, 'city': 'London'}

将 Python 对象转换为 JSON 字符串 (`json.dumps()`)

如果你需要将 Python 数据结构（如字典或列表）转换为 JSON 格式的字符串，以便通过网络发送或存储，json.dumps()（dump string 的缩写）将派上用场。

import json

python_data = {
    "product": "Laptop",
    "price": 1200.50,
    "features": ["Intel i7", "16GB RAM", "512GB SSD"],
    "available": True
}

# 转换为 JSON 字符串
json_output_string = json.dumps(python_data)
print(json_output_string) # {"product": "Laptop", "price": 1200.5, "features": ["Intel i7", "16GB RAM", "512GB SSD"], "available": true}

# 格式化输出 (pretty print) 使其更具可读性
formatted_json_string = json.dumps(python_data, indent=4, ensure_ascii=False)
print(formatted_json_string)
# {
#     "product": "Laptop",
#     "price": 1200.5,
#     "features": [
#         "Intel i7",
#         "16GB RAM",
#         "512GB SSD"
#     ],
#     "available": true
# }

indent参数用于指定缩进级别，使输出更美观；ensure_ascii=False可以确保非 ASCII 字符（如中文）正常显示，而不是转换为 Unicode 转义序列。

将 Python 对象写入 JSON 文件 (`json.dump()`)

要将 Python 对象直接写入 JSON 文件，可以使用json.dump()（dump file 的缩写）。

import json

new_config = {
    "server_ip": "192.168.1.1",
    "port": 8080,
    "users": [{"id": 1, "name": "Charlie"},
        {"id": 2, "name": "David"}
    ]
}

# 将 Python 字典写入 JSON 文件
with open('config.json', 'w', encoding='utf-8') as f:
    json.dump(new_config, f, indent=4, ensure_ascii=False)

print("config.json 文件已生成。")

自定义序列化: 对于包含自定义对象（非 Python 内置类型）的字典或列表，json.dumps() 和 json.dump() 默认无法处理。你可以通过为 default 参数提供一个函数来自定义对象的序列化方式。

import json
import datetime

class MyObject:
    def __init__(self, name, creation_date):
        self.name = name
        self.creation_date = creation_date

def custom_serializer(obj):
    if isinstance(obj, datetime.datetime):
        return obj.isoformat()
    if isinstance(obj, MyObject):
        return {"name": obj.name, "creation_date": obj.creation_date.isoformat()}
    raise TypeError(f"Object of type {obj.__class__.__name__} is not JSON serializable")

my_instance = MyObject("Test Instance", datetime.datetime.now())
data_with_custom_object = {
    "event": "data_log",
    "timestamp": datetime.datetime.now(),
    "details": my_instance
}

# 尝试直接序列化会报错
try:
    json.dumps(data_with_custom_object)
except TypeError as e:
    print(f"Direct serialization error: {e}")

# 使用自定义序列化器
json_output = json.dumps(data_with_custom_object, default=custom_serializer, indent=4, ensure_ascii=False)
print("nWith custom serializer:")
print(json_output)

错误处理: 在解析 JSON 时，可能会遇到格式不正确的问题。json.JSONDecodeError 用于捕获这类错误。

import json

invalid_json = '{"name":"Eve","age": 28,' # 缺少闭合括号

try:
    data = json.loads(invalid_json)
    print(data)
except json.JSONDecodeError as e:
    print(f"JSON 解析错误: {e}")

XML（Extensible Markup Language）是一种标记语言，被设计用来传输和存储数据。它比 JSON 更为冗长，但提供了更强大的结构化能力，尤其适用于复杂的文档和层次结构。Python 标准库中的 xml.etree.ElementTree 模块（通常简称ET）是处理 XML 的强大而方便的工具。

XML 文档由元素（Element）、属性（Attribute）、文本内容（Text）等组成。

元素: XML 文档的基本构建块，如<book>...</book>。
属性: 元素的额外信息，以键值对形式存在，如<book id="123">。
文本内容: 元素标签之间的实际数据，如<title>Python Programming</title>。
根元素: 每个 XML 文档必须有一个且只有一个根元素。

从 XML 字符串解析到 Element 对象 (`ET.fromstring()`)

当 XML 数据以字符串形式存在时，ET.fromstring() 函数会将其解析为一个 Element 对象，该对象代表 XML 的根元素。

import xml.etree.ElementTree as ET

xml_string = """
<root>
    <item id="1">
        <name>Apple</name>
        <price>1.0</price>
    </item>
    <item id="2">
        <name>Banana</name>
        <price>0.5</price>
    </item>
</root>
"""

root = ET.fromstring(xml_string)

print(f"根元素标签: {root.tag}") # root

# 遍历子元素
for child in root:
    print(f"子元素标签: {child.tag}, 属性: {child.attrib}")
    print(f"名称: {child.find('name').text}, 价格: {child.find('price').text}")

从 XML 文件解析到 ElementTree 对象 (`ET.parse()`)

处理存储在文件中的 XML 数据时，ET.parse() 是最常见的方法。它返回一个 ElementTree 对象，该对象是整个 XML 文档的抽象表示。通过 getroot() 方法可以获取根元素。

import xml.etree.ElementTree as ET

# 创建一个示例 XML 文件
xml_content = """<?xml version="1.0"encoding="UTF-8"?>
<catalog>
    <book id="bk101">
        <author>Gambardella, Matthew</author>
        <title>XML Developer's Guide</title>
        <genre>Computer</genre>
        <price>44.95</price>
        <publish_date>2000-10-01</publish_date>
        <description>An in-depth look at creating applications with XML.</description>
    </book>
    <book id="bk102">
        <author>Ralls, Kim</author>
        <title>Midnight Rain</title>
        <genre>Fantasy</genre>
        <price>5.95</price>
        <publish_date>2000-12-16</publish_date>
        <description>A young man's struggle to find love.</description>
    </book>
</catalog>
"""with open('catalog.xml','w', encoding='utf-8') as f:
    f.write(xml_content)

# 从文件解析 XML
tree = ET.parse('catalog.xml')
root = tree.getroot()

print(f"根元素: {root.tag}")

# 查找所有 'book' 元素
for book in root.findall('book'):
    book_id = book.get('id') # 获取属性
    title = book.find('title').text # 获取子元素的文本
    author = book.find('author').text
    print(f"ID: {book_id}, 标题: {title}, 作者: {author}")

ElementTree提供了丰富的 API 来导航和操作 XML 树。

访问元素属性: 使用element.get('attribute_name')。
访问子元素文本: 使用element.find('child_tag').text。
查找元素:
- element.find('tag'): 查找第一个匹配的直接子元素。
- element.findall('tag'): 查找所有匹配的直接子元素，返回列表。
- element.iter('tag'): 迭代器，查找所有后代元素（包括自身）中匹配 tag 的元素。
修改元素:
- element.set('attribute_name', 'new_value'): 修改属性。
- element.find('child_tag').text = 'new text': 修改子元素文本。
- element.append(new_child): 添加子元素。
- element.remove(child): 移除子元素。
创建新元素: ET.SubElement(parent, tag, attrib={})。

import xml.etree.ElementTree as ET

tree = ET.parse('catalog.xml')
root = tree.getroot()

# 修改一个元素的属性
book = root.find("./book[@id='bk101']") # XPath 表达式查找
if book is not None:
    book.set('id', 'new_bk101')
    print(f"修改 ID 后的书本: {book.get('id')}")

# 修改一个子元素的文本
if book is not None:
    title = book.find('title')
    if title is not None:
        title.text = "Python XML Processing Guide"
        print(f"修改标题后的书本: {book.find('title').text}")

# 添加一个新的书本元素
new_book = ET.SubElement(root, 'book', {'id': 'bk103'})
ET.SubElement(new_book, 'author').text = 'John Doe'
ET.SubElement(new_book, 'title').text = 'Learning Python'
ET.SubElement(new_book, 'price').text = '39.99'

# 移除一个元素（例如：移除 bk102）book_to_remove = root.find("./book[@id='bk102']")
if book_to_remove is not None:
    root.remove(book_to_remove)
    print("移除了 ID 为 bk102 的书本。")

# 将修改后的 XML 写入新文件
tree.write('updated_catalog.xml', encoding='utf-8', xml_declaration=True)
print("updated_catalog.xml 文件已生成。")

lxml: 一个高性能、功能丰富的 XML 库，支持 XPath 和 XSLT，并且对大型 XML 文件处理更高效。如果标准库的性能或功能不足，lxml是更好的选择。
xml.dom.minidom: 提供 DOM（Document Object Model）风格的 API，对于熟悉 DOM 操作的开发者来说可能更直观，但通常比 ElementTree 更内存密集。

在不同系统间进行数据交换时，经常需要在 JSON 和 XML 之间进行格式转换。虽然没有内置的直接转换函数，但我们可以通过编写逻辑或使用第三方库来实现。

XML 的结构比 JSON 更复杂（例如属性、混合内容、命名空间等），因此将 XML 精确无损地转换为 JSON 可能具有挑战性。最常见的转换策略是将 XML 元素映射为 JSON 对象，元素的属性可以作为键值对，文本内容也可以作为键值对。

一个常用的第三方库是xmltodict，它能非常方便地将 XML 转换为 Python 字典（然后可以轻松转换为 JSON）。

import xml.etree.ElementTree as ET
import json
import xmltodict # 需要安装: pip install xmltodict

xml_data = """<person id="123">
    <name>Alice</name>
    <age>30</age>
    <address type="home">
        <street>123 Main St</street>
        <city>New York</city>
    </address>
    <interests>
        <interest>Reading</interest>
        <interest>Hiking</interest>
    </interests>
</person>
"""

# 使用 xmltodict 将 XML 转换为 Python 字典
ordered_dict = xmltodict.parse(xml_data)

# 将 OrderedDict 转换为普通字典再转换为 JSON
json_output = json.dumps(ordered_dict, indent=4, ensure_ascii=False)
print("XML 转 JSON 结果：")
print(json_output)

# 输出示例：# {
#     "person": {
#         "@id": "123",
#         "name": "Alice",
#         "age": "30",
#         "address": {
#             "@type": "home",
#             "street": "123 Main St",
#             "city": "New York"
#         },
#         "interests": {
#             "interest": [
#                 "Reading",
#                 "Hiking"
#             ]
#         }
#     }
# }

xmltodict 的转换规则是将元素标签作为字典的键，元素的属性以 @ 前缀作为键，文本内容作为 #text 键（如果同时有属性和文本）。重复的子元素会被转换为列表。

将 JSON 转换为 XML 同样需要定义映射规则。例如，JSON 对象可以转换为 XML 元素，对象的键成为元素标签或属性，值成为元素内容或属性值。

使用 xmltodict 也可以实现 JSON 到 XML 的转换。

import json
import xmltodict # 需要安装: pip install xmltodict

json_data = {
    "product": {
        "@id": "prod001",
        "name": "Smartphone",
        "price": 699.99,
        "specifications": {
            "display": "AMOLED",
            "camera": "48MP"
        },
        "tags": [
            "mobile",
            "electronics"
        ]
    }
}

# 使用 xmltodict 将 Python 字典（模拟 JSON 结构）转换为 XML
# 注意：json.dumps 和 xmltodict.unparse 期望的结构略有不同，# xmltodict.unparse 期望根元素是字典的唯一键。# 因此我们直接使用最外层的字典。xml_output = xmltodict.unparse(json_data, pretty=True, encoding='utf-8')
print("nJSON 转 XML 结果：")
print(xml_output.decode('utf-8'))

# 输出示例：# <?xml version="1.0" encoding="utf-8"?>
# <product id="prod001">
#   <name>Smartphone</name>
#   <price>699.99</price>
#   <specifications>
#       <display>AMOLED</display>
#       <camera>48MP</camera>
#   </specifications>
#   <tags>mobile</tags>
#   <tags>electronics</tags>
# </product>

在 xmltodict 中，以 @ 开头的键会被转换为 XML 属性，其他键则转换为子元素。列表会生成多个同名子元素。

错误处理 : 始终使用try-except 块来处理 json.JSONDecodeError 或xml.etree.ElementTree.ParseError，以确保你的程序在遇到无效数据时不会崩溃。
编码: 在读写文件时，务必指定正确的字符编码（通常是utf-8），以避免乱码问题。
大型文件: 对于非常大的 JSON 或 XML 文件，一次性加载到内存可能会消耗大量资源。
- JSON: 对于超大 JSON 文件，可以考虑使用流式解析库，如ijson，它允许你逐个解析 JSON 元素，而不是一次性加载整个文档。
- XML: ElementTree对于大型 XML 文件表现良好，因为它只将当前正在处理的部分加载到内存中。对于极端情况，lxml的 iterparse 功能提供了更高效的流式解析。
XML 安全性 : 解析来自不可信源的 XML 时，需警惕 XML 外部实体注入（XXE）等安全漏洞。Python 3.8+ 的ElementTree 默认已禁用外部实体加载，但如果你使用旧版本或特定配置，可能需要额外注意。lxml提供了更精细的控制。
数据验证: 对于生产环境中的关键数据，考虑使用 JSON Schema 验证 JSON 数据结构，或使用 DTD/XSD 验证 XML 数据，以确保数据的完整性和一致性。

JSON 和 XML 作为数据交换的基石，在现代软件开发中扮演着不可或缺的角色。Python 凭借其强大的标准库 json 和xml.etree.ElementTree，为我们提供了高效、灵活的工具来处理这两种数据格式。无论是数据的解析、操作、生成，还是在它们之间进行格式转换，Python 都能助你一臂之力。

通过本文的深入学习，你现在应该对如何用 Python 处理 JSON 和 XML 数据有了全面的理解。从基础的读写操作，到复杂的数据导航和修改，再到不同格式间的转换策略，你已经掌握了关键技能。不断实践，探索更高级的库（如 lxml 和xmltodict），你将能够更加游刃有余地应对各种数据处理挑战，成为一名真正的数据处理高手。

正文完

发表至： Python

2026-01-14

0

Python 函数式编程深度探索：lambda、map、filter 与 itertools 库的精妙应用

Python基础入门 Day104 图像绘制与图形生成

Python 基础入门 Day15

赋能数据洞察：基于 Streamlit 快速搭建交互式数据可视化应用，实战掌握图表构建

基于 PyTorch 实现图像分类：从数据集构建到模型训练部署的端到端指南

Python 数据处理终极指南：高效解析与格式转换 JSON/XML，从入门到精通

引言：数据时代的基石——JSON 与 XML

用 Python 处理 JSON 数据：轻量级数据交换的艺术

1. JSON 基本概念回顾

2. 解析 JSON：从字符串或文件到 Python 对象

从 JSON 字符串解析到 Python 对象 (`json.loads()`)

从 JSON 文件解析到 Python 对象 (`json.load()`)

3. 生成 JSON：从 Python 对象到 JSON 字符串或文件

将 Python 对象转换为 JSON 字符串 (`json.dumps()`)

将 Python 对象写入 JSON 文件 (`json.dump()`)

4. 高级 JSON 处理技巧

用 Python 处理 XML 数据：结构化文档的深度解析

1. XML 基本概念回顾

2. 解析 XML：从字符串或文件到 ElementTree 对象

从 XML 字符串解析到 Element 对象 (`ET.fromstring()`)

从 XML 文件解析到 ElementTree 对象 (`ET.parse()`)

3. 导航、查找和修改 XML 数据

4. 其他 XML 处理库 (简介)

JSON 与 XML 之间的数据格式转换

1. XML 转 JSON

2. JSON 转 XML

最佳实践与性能考虑

结语

Playwright page.goto(url) 详解：深入解析网页导航的最佳实践

如何在安卓 Termux 上安装 qBittorrent

深度解析：基于 PyTorch 实现图像分类——从数据集构建到模型训练部署全攻略

Python 基础入门 Day30

如何使用Python实现高效的数据筛选和处理：一步步带你掌握列表解析与生成器

如何在Mac上高效使用Terminal：5个实用命令

如何用 Python 批量重命名文件：一步一步的教程

如何用Python爬虫自动化下载网页数据：从入门到精通

Mac 文件管理技巧：如何利用 Spotlight 快速查找文件

Python 性能优化：提升代码执行效率的五个技巧

Python 数据处理终极指南：高效解析与格式转换 JSON/XML，从入门到精通

引言：数据时代的基石——JSON 与 XML

用 Python 处理 JSON 数据：轻量级数据交换的艺术

1. JSON 基本概念回顾

2. 解析 JSON：从字符串或文件到 Python 对象

从 JSON 字符串解析到 Python 对象 (json.loads())

从 JSON 文件解析到 Python 对象 (json.load())

3. 生成 JSON：从 Python 对象到 JSON 字符串或文件

将 Python 对象转换为 JSON 字符串 (json.dumps())

将 Python 对象写入 JSON 文件 (json.dump())

4. 高级 JSON 处理技巧

用 Python 处理 XML 数据：结构化文档的深度解析

1. XML 基本概念回顾

2. 解析 XML：从字符串或文件到 ElementTree 对象

从 XML 字符串解析到 Element 对象 (ET.fromstring())

从 XML 文件解析到 ElementTree 对象 (ET.parse())

3. 导航、查找和修改 XML 数据

4. 其他 XML 处理库 (简介)

JSON 与 XML 之间的数据格式转换

1. XML 转 JSON

2. JSON 转 XML

最佳实践与性能考虑

结语

从 JSON 字符串解析到 Python 对象 (`json.loads()`)

从 JSON 文件解析到 Python 对象 (`json.load()`)

将 Python 对象转换为 JSON 字符串 (`json.dumps()`)

将 Python 对象写入 JSON 文件 (`json.dump()`)

从 XML 字符串解析到 Element 对象 (`ET.fromstring()`)

从 XML 文件解析到 ElementTree 对象 (`ET.parse()`)