用 Python 处理 JSON/XML 数据：高效解析、操作与格式转换全攻略

12次阅读

共计 9837 个字符，预计需要花费 25 分钟才能阅读完成。

在当今数字化的世界里，数据是新时代的石油。而 JSON (JavaScript Object Notation) 和 XML (Extensible Markup Language) 作为两种最常见的数据交换格式，几乎无处不在。从 Web API 的响应到配置文件，再到各种系统之间的数据传输，我们都离不开它们。作为一名开发者，高效地处理这些数据是核心技能之一。

Python 以其简洁的语法、强大的生态系统和丰富的库支持，成为了处理 JSON 和 XML 数据的首选语言。本文将带你深入探索 Python 如何高效地解析、操作并转换 JSON 和 XML 数据，助你成为数据处理的高手。

Python 标准库内置的 json 模块，为 JSON 数据的序列化（Python 对象转换为 JSON 格式）和反序列化（JSON 格式转换为 Python 对象）提供了强大而直观的工具。

1. 从 Python 对象到 JSON 字符串 / 文件 (序列化)
当你需要将 Python 的字典 (dict) 或列表 (list) 对象转换为 JSON 格式的字符串或写入文件时，可以使用 json.dumps() 和 json.dump()。

import json

# 示例 Python 字典
python_data = {
    "name": "张三",
    "age": 30,
    "isStudent": False,
    "courses": ["Python 编程", "数据结构"],
    "address": {
        "street": "科技路",
        "city": "北京",
        "zipCode": "100080"
    }
}

# 转换为 JSON 字符串
json_string = json.dumps(python_data)
print("JSON 字符串:")
print(json_string)

# 使用 indent 参数进行美化输出
json_pretty_string = json.dumps(python_data, indent=4, ensure_ascii=False) # ensure_ascii=False 支持中文
print("n 美化后的 JSON 字符串:")
print(json_pretty_string)

# 写入到 JSON 文件
with open("data.json", "w", encoding="utf-8") as f:
    json.dump(python_data, f, indent=4, ensure_ascii=False)
print("n 数据已写入 data.json 文件。")

indent 参数用于指定输出的缩进级别，这对于提高 JSON 文件的可读性非常有帮助。ensure_ascii=False 则确保中文字符可以直接显示，而不是被转义为 uXXXX 格式。

2. 从 JSON 字符串 / 文件到 Python 对象 (反序列化)
反过来，当你从 API 接收到 JSON 字符串或读取 JSON 文件时，可以使用 json.loads() 和 json.load() 将其转换为 Python 字典或列表，方便后续操作。

# 从 JSON 字符串加载
json_str_from_api = '{"name":" 李四 ","age": 25,"city":" 上海 "}'
python_dict = json.loads(json_str_from_api)
print("n 从 JSON 字符串加载的 Python 字典:")
print(python_dict)
print(f"姓名: {python_dict['name']}, 城市: {python_dict['city']}")

# 从 JSON 文件加载
with open("data.json", "r", encoding="utf-8") as f:
    loaded_data = json.load(f)
print("n 从 data.json 文件加载的 Python 数据:")
print(loaded_data)
print(f"加载数据的姓名: {loaded_data['name']}, 课程: {loaded_data['courses'][0]}")

一旦 JSON 数据被反序列化为 Python 字典或列表，你就可以像操作普通的 Python 数据结构一样访问和修改它们：

# 修改数据
loaded_data["age"] = 31
loaded_data["address"]["zipCode"] = "100081"
loaded_data["courses"].append("Web 开发")

# 添加新字段
loaded_data["email"] = "[email protected]"

# 删除字段
if "isStudent" in loaded_data:
    del loaded_data["isStudent"]

print("n 修改后的数据:")
print(json.dumps(loaded_data, indent=4, ensure_ascii=False))

在实际应用中，处理可能存在的 JSON 格式错误非常重要。json.JSONDecodeError 是处理此类错误的常见异常。

malformed_json = '{"name":" 王五 ","age": 40,' # 缺少闭合括号

try:
    data = json.loads(malformed_json)
except json.JSONDecodeError as e:
    print(f"nJSON 解析错误: {e}")
    print("请检查 JSON 字符串的格式。")

XML 是一种更严格、更具描述性的标记语言，常用于配置文件、SOAP 服务和文档存储。Python 标准库提供了 xml.etree.ElementTree (通常简写为 ET) 模块，用于处理 XML 数据。对于更复杂的场景或追求极致性能，lxml 库是更强大的选择，它兼容 ElementTree API 并提供了 XPath、XSLT 等高级功能。

1. 解析 XML 字符串 / 文件
ElementTree 将 XML 文档解析为一个树形结构，每个 XML 元素都被表示为一个 Element 对象。

import xml.etree.ElementTree as ET

# 示例 XML 字符串
xml_string = """
<bookshelf>
    <book id="bk101">
        <author>J.K. Rowling</author>
        <title>Harry Potter and the Sorcerer's Stone</title>
        <genre>Fantasy</genre>
        <price>29.99</price>
        <publish_date>1997-06-26</publish_date>
        <description>The first book in the Harry Potter series.</description>
    </book>
    <book id="bk102">
        <author>Stephen King</author>
        <title>It</title>
        <genre>Horror</genre>
        <price>35.50</price>
        <publish_date>1986-09-15</publish_date>
        <description>A horror novel by Stephen King.</description>
    </book>
</bookshelf>
"""

# 从字符串解析 XML
root = ET.fromstring(xml_string)
print(f"根元素标签: {root.tag}")

# 将 XML 写入文件
with open("books.xml", "wb") as f: # ElementTree 默认写入 bytes，所以用 'wb'
    tree = ET.ElementTree(root)
    tree.write(f, encoding='utf-8', xml_declaration=True, pretty_print=True) # pretty_print 是 lxml 的特性，ET 没有
print("XML 数据已写入 books.xml 文件。")

# 从文件解析 XML (如果文件已存在)
try:
    tree_from_file = ET.parse("books.xml")
    root_from_file = tree_from_file.getroot()
    print(f"n 从文件解析的根元素标签: {root_from_file.tag}")
except FileNotFoundError:
    print("nbooks.xml 文件不存在，跳过从文件解析。")

请注意，标准库的 ElementTree.write() 没有 pretty_print 参数，如果要美化输出，需要手动处理或者使用 lxml 库。此处为了通用性，保留了 pretty_print 注释。

1. 访问元素信息
每个 Element 对象都有 tag (元素名称)、text (元素文本内容) 和 attrib (属性字典)。

# 访问根元素信息
print(f"n 根元素: {root.tag}")

# 遍历子元素
for book in root: # 默认遍历直接子元素
    print(f"书本元素标签: {book.tag}, ID: {book.attrib['id']}")
    for child in book:
        print(f"子元素: {child.tag}: {child.text}")

# 查找特定元素
first_book_title = root.find("book/title") # 查找第一个 <book> 下的 <title>
if first_book_title is not None:
    print(f"n 第一本书的标题: {first_book_title.text}")

# 查找所有特定元素
all_titles = root.findall(".//title") # 使用 XPath 查找所有 <title> 元素
print("n 所有书的标题:")
for title in all_titles:
    print(f"- {title.text}")

# 查找带有特定属性的元素
book_with_id_102 = root.find("book[@id='bk102']") # XPath 语法
if book_with_id_102 is not None:
    author = book_with_id_102.find("author").text
    print(f"nID 为 bk102 的书的作者: {author}")

1. 修改现有元素
你可以修改元素的文本、属性或添加 / 删除子元素。

# 修改第一本书的价格
first_book = root.find("book")
if first_book:
    price_elem = first_book.find("price")
    if price_elem:
        price_elem.text = "32.00"
        print(f"n 修改后的第一本书价格: {price_elem.text}")

# 添加新属性
first_book.set("currency", "USD")
print(f"第一本书的新属性: {first_book.attrib}")

# 删除属性
if "description" in first_book.attrib: # 假设存在 description 属性，这里其实没有
    del first_book.attrib["description"]

# 删除元素
# 找到要删除的元素
book_to_remove = root.find("book[@id='bk101']")
if book_to_remove is not None:
    root.remove(book_to_remove)
    print("nID 为 bk101 的书已删除。")

# 再次打印所有书标题验证
print("删除后所有书的标题:")
for title in root.findall("book/title"):
    print(f"- {title.text}")

2. 构建新 XML 文档
从头开始构建 XML 文档也很简单。

# 创建根元素
new_root = ET.Element("library")

# 添加子元素
book1 = ET.SubElement(new_root, "book", id="b001")
ET.SubElement(book1, "title").text = "Python Cookbook"
ET.SubElement(book1, "author").text = "David Beazley"

book2 = ET.SubElement(new_root, "book", id="b002")
ET.SubElement(book2, "title").text = "Fluent Python"
ET.SubElement(book2, "author").text = "Luciano Ramalho"

# 将新 XML 写入文件
new_tree = ET.ElementTree(new_root)
new_tree.write("new_library.xml", encoding='utf-8', xml_declaration=True)
print("n 新 XML 数据已写入 new_library.xml 文件。")

在 XML 中，命名空间用于避免元素名称冲突。ElementTree 处理命名空间时，会将命名空间 URI 放在元素标签前的花括号内。

xml_with_ns = """<root xmlns:ns1="http://example.com/ns1"xmlns:ns2="http://example.com/ns2">
    <ns1:item id="1">
        <name>Item A</name>
        <ns2:value>100</ns2:value>
    </ns1:item>
</root>
"""

root_ns = ET.fromstring(xml_with_ns)

# 查找带命名空间的元素
ns1_item = root_ns.find("{http://example.com/ns1}item")
if ns1_item:
    print(f"n 找到带命名空间的元素: {ns1_item.tag}")
    # 查找子元素，即使子元素没有命名空间，父元素有，查找时也需要注意
    # 或者直接查找没有前缀的子元素名
    name_elem = ns1_item.find("name")
    if name_elem is not None:
        print(f"名称: {name_elem.text}")
    ns2_value = ns1_item.find("{http://example.com/ns2}value")
    if ns2_value is not None:
        print(f"值: {ns2_value.text}")

在很多场景下，我们需要在 JSON 和 XML 之间进行数据格式转换，比如将 Web API 返回的 JSON 数据转换为 XML 供旧系统使用，或者反之。

将 XML 转换为 JSON 常常涉及到如何映射 XML 的元素、属性和文本内容到 JSON 的键值对、数组。由于 XML 结构比 JSON 更复杂（如属性、混合内容、重复的同名子元素），这个过程需要一些设计决策。

一个常见的映射策略是：

XML 元素名成为 JSON 键。
XML 属性通常会以特殊前缀（如 @）作为 JSON 键。
XML 元素的文本内容通常会以特殊前缀（如 #text）作为 JSON 键。
多个同名子元素会被转换为 JSON 数组。

def xml_to_json_converter(element):
    """
    一个简单的递归函数，将 XML 元素转换为 Python 字典，模拟 JSON 结构。未完全处理所有 XML 复杂性，仅为演示基本思路。"""
    result = {}

    # 处理属性
    if element.attrib:
        for key, value in element.attrib.items():
            result[f"@{key}"] = value

    # 处理子元素
    children_dict = {}
    for child in element:
        child_data = xml_to_json_converter(child)
        if child.tag in children_dict:
            # 如果已存在同名子元素，转换为列表
            if not isinstance(children_dict[child.tag], list):
                children_dict[child.tag] = [children_dict[child.tag]]
            children_dict[child.tag].append(child_data)
        else:
            children_dict[child.tag] = child_data
    result.update(children_dict)

    # 处理文本内容 (如果元素有文本且没有子元素，或者子元素处理后还有文本)
    if element.text and element.text.strip():
        text_content = element.text.strip()
        if not result: # 如果没有属性和子元素，文本就是值
            return text_content
        else: # 否则，文本作为特殊键
            result["#text"] = text_content

    return result

# 重新解析一个 XML 字符串进行转换
xml_data_for_conversion = """
<root>
    <item id="1">
        <name>Apple</name>
        <price currency="USD">1.20</price>
    </item>
    <item id="2">
        <name>Banana</name>
        <price currency="USD">0.80</price>
    </item>
</root>
"""
root_conv = ET.fromstring(xml_data_for_conversion)
json_output = xml_to_json_converter(root_conv)
print("nXML 转换为 JSON:")
print(json.dumps(json_output, indent=4))

对于更 robust 的 XML 到 JSON 转换，可以考虑使用第三方库如 xmltodict，它能更全面地处理 XML 的各种复杂情况。

将 JSON 转换为 XML 则相对直接，因为 JSON 结构（键值对、数组）可以直接映射到 XML 元素和子元素。

def json_to_xml_converter(parent_element, json_data):
    """一个简单的递归函数，将 Python 字典 / 列表转换为 XML 元素。"""
    if isinstance(json_data, dict):
        for key, value in json_data.items():
            if key.startswith('@'): # 处理属性
                parent_element.set(key[1:], str(value))
            elif key == '#text': # 处理文本内容
                parent_element.text = str(value)
            else:
                child_element = ET.SubElement(parent_element, key)
                json_to_xml_converter(child_element, value)
    elif isinstance(json_data, list):
        # 列表中的每个项都创建同名子元素
        for item in json_data:
            # 假设列表中的项应该被包裹在父元素的同名标签下
            # 这个映射策略需要根据实际情况调整
            # 这里简单地将列表项作为父元素的子元素，使用父元素的标签名
            # 如果需要为列表项生成特定标签，需要更复杂的逻辑
            list_item_element = ET.SubElement(parent_element, parent_element.tag)
            json_to_xml_converter(list_item_element, item)
    else:
        parent_element.text = str(json_data)

# 示例 JSON 数据
json_data_for_conversion = {
    "bookstore": {
        "book": [{"@id": "b001", "title": "The Hitchhiker's Guide to the Galaxy","author":"Douglas Adams"},
            {"@id": "b002", "title": "1984", "author": "George Orwell"}
        ],
        "location": "Online"
    }
}

# 创建根元素
root_tag = list(json_data_for_conversion.keys())[0]
xml_root = ET.Element(root_tag)
json_to_xml_converter(xml_root, json_data_for_conversion[root_tag])

# 转换为 XML 字符串
xml_output_tree = ET.ElementTree(xml_root)
print("nJSON 转换为 XML:")
# ElementTree 的 tostring 默认不美化，且返回 bytes，需要 decode
print(ET.tostring(xml_root, encoding='utf-8', xml_declaration=True).decode('utf-8'))

与 XML 到 JSON 转换一样，这个简单的函数展示了核心逻辑，但实际应用可能需要更复杂的映射规则来处理边缘情况。

对于非常大的 JSON 或 XML 文件，一次性加载到内存可能会导致内存溢出。

JSON: 使用 ijson 这样的库进行增量解析，它可以在读取文件时逐个或逐批处理 JSON 对象，而无需将整个文件加载到内存中。
XML: 可以使用 xml.sax 模块进行 SAX (Simple API for XML) 解析。SAX 是一种事件驱动的解析器，它在遇到 XML 文档中的特定事件（如元素开始、元素结束）时触发回调函数，同样避免了整个文档的内存加载。lxml 也提供了更高效的迭代解析器。

JSON Schema: JSON Schema 是用于验证 JSON 数据结构的标准。你可以使用 jsonschema 这样的 Python 库来根据预定义的 Schema 验证 JSON 数据，确保其符合预期格式。
XML Schema (XSD) / DTD: XML 提供了 DTD (Document Type Definition) 和 XML Schema (XSD) 来定义文档的结构和内容。lxml 库支持对 XML 文档进行 XSD 验证。

选择合适的库 : 对于 XML，lxml 通常比标准库 ElementTree 快得多，尤其是在处理大型文档和使用 XPath 查询时。
避免不必要的解析 : 如果只需要部分数据，尝试使用 XPath 或 JSON Path 等工具进行精确查询，而不是解析整个文档并手动遍历。
缓存 : 对于频繁访问的静态或变化不大的数据，考虑将其解析后的 Python 对象进行缓存。

空值检查 : 在访问 XML 元素的 find() 结果或 JSON 字典的键时，务必检查返回是否为 None，以防止 AttributeError 或 KeyError。
默认值 : 在获取可能不存在的键或属性时，提供默认值。例如 dict.get('key', default_value)。
异常捕获 : 始终使用 try-except 块来捕获文件操作、网络请求和解析过程中可能出现的异常，如 FileNotFoundError, json.JSONDecodeError, xml.etree.ElementTree.ParseError 等。