Python 生成器与迭代器：内存优化与无限序列实现的利器

9次阅读

共计 5860 个字符，预计需要花费 15 分钟才能阅读完成。

在 Python 编程中，高效处理数据是衡量代码质量的重要标准之一。尤其当面临海量数据或需要处理理论上无限的数据流时，如何有效地管理内存并避免不必要的资源消耗，成为了开发者必须面对的挑战。Python 的生成器（Generators）和迭代器（Iterators）机制，正是为了解决这一痛点而设计的强大工具。它们不仅提供了优雅的数据访问方式，更是实现内存优化的关键，并为构建无限序列提供了可能。本文将深入探讨 Python 生成器与迭代器的核心概念、工作原理、内存优化实践以及在实现无限序列中的应用。

在深入生成器之前，我们必须首先理解迭代器。迭代器是 Python 中一个非常核心的概念，它允许我们遍历容器（如列表、元组、字符串等）中的所有元素。任何实现了迭代器协议（Iterator Protocol）的对象都可以被称为迭代器。

迭代器协议要求对象具备两个特殊方法：

__iter__(): 这个方法返回迭代器对象本身。
__next__(): 这个方法返回序列中的下一个元素。如果没有更多元素，它应该引发 StopIteration 异常，通知迭代结束。

Python 中的许多内置类型，如列表、元组、字符串和字典，都是可迭代对象（Iterable）。当我们使用 for 循环遍历它们时，Python 解释器会在幕后为我们创建一个迭代器对象。

我们可以通过 iter() 内置函数手动获取一个可迭代对象的迭代器，然后使用 next() 内置函数逐个获取元素：

my_list = [1, 2, 3, 4]
my_iterator = iter(my_list)

print(next(my_iterator)) # 输出: 1
print(next(my_iterator)) # 输出: 2
# ...
# 当元素耗尽时，next()会抛出 StopIteration 异常
# print(next(my_iterator)) # 再次调用将引发 StopIteration

自定义迭代器

要创建一个自定义的迭代器，我们需要定义一个类，并实现 __iter__ 和 __next__ 方法。例如，一个简单的计数器迭代器：

class MyCounter:
    def __init__(self, low, high):
        self.current = low
        self.high = high

    def __iter__(self):
        return self # 迭代器对象本身就是可迭代的

    def __next__(self):
        if self.current < self.high:
            num = self.current
            self.current += 1
            return num
        raise StopIteration # 达到上限时停止迭代

# 使用自定义迭代器
counter = MyCounter(1, 5)
for num in counter:
    print(num) # 输出: 1, 2, 3, 4

通过这个例子，我们可以看到自定义迭代器需要维护内部状态（self.current），并在每次调用 next() 时更新状态并返回下一个值。当没有更多值时，显式地抛出 StopIteration 异常。

生成器提供了一种更简洁、更 Pythonic 的方式来创建迭代器。它们是特殊的函数，通过使用 yield 关键字而不是 return 来返回值。当一个函数包含 yield 语句时，它就变成了一个生成器函数，调用它会返回一个生成器对象（Generator Object），这个对象本身就是一个迭代器。

生成器的工作原理非常独特：

当生成器函数被调用时，它不会立即执行函数体内的代码，而是返回一个生成器对象。
每次对生成器对象调用 next() 方法（无论是通过 for 循环还是直接调用 next()），生成器函数会从上次 yield 语句暂停的地方继续执行，直到遇到下一个 yield 语句。
yield 语句会“暂停”函数的执行，将 yield 后面的表达式的值作为结果返回，并保存当前函数的执行状态（包括局部变量和指令指针）。
当再次调用 next() 时，函数会从上次暂停的地方恢复执行。
如果生成器函数执行完毕，或者遇到了 return 语句（没有指定返回值，等同于 return None），它会自动引发 StopIteration 异常，表示迭代结束。

生成器函数示例

让我们用生成器来实现上面自定义迭代器中的计数器功能：

def my_generator_counter(low, high):
    while low < high:
        yield low
        low += 1

# 使用生成器
gen_counter = my_generator_counter(1, 5)
for num in gen_counter:
    print(num) # 输出: 1, 2, 3, 4

对比自定义迭代器，生成器函数明显更加简洁。我们无需手动实现 __iter__ 和 __next__ 方法，也无需显式地抛出 StopIteration。yield 关键字自动处理了这些复杂的逻辑。

生成器表达式

除了生成器函数，Python 还提供了生成器表达式（Generator Expression），它类似于列表推导式（List Comprehension），但使用圆括号而不是方括号。生成器表达式同样返回一个生成器对象，而不是直接创建一个列表。

# 列表推导式：立即创建并存储所有结果到内存
squares_list = [x * x for x in range(10)]
print(squares_list) # 输出: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

# 生成器表达式：按需生成结果
squares_gen = (x * x for x in range(10))
print(squares_gen) # 输出: <generator object <genexpr> at 0x...>
print(list(squares_gen)) # 此时才真正计算并生成列表: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

生成器表达式在语法上更紧凑，尤其适合一次性遍历且不需要存储所有结果的场景。

生成器和迭代器在内存优化方面的核心优势在于它们的 惰性求值（Lazy Evaluation）特性，也称为 按需生成。

考虑一个场景，我们需要处理一个包含一百万个元素的序列。如果使用列表推导式，所有一百万个元素会立即生成并存储在内存中：

import sys

# 列表推导式
large_list = [i for i in range(1_000_000)]
print(f"列表占用内存: {sys.getsizeof(large_list) / (1024 * 1024):.2f} MB")
# 列表中的每个整数对象本身也会占用内存，这里只是列表对象本身的开销
# 实际占用内存会更大

sys.getsizeof() 只能获取列表对象本身的大小，不包含其内部元素的大小。对于大型数据，这会迅速消耗大量内存。

然而，如果使用生成器，元素是逐个生成的，而不是一次性全部生成并存储。生成器在任何给定时刻只在内存中维护一个元素（当前生成的值）以及它的状态信息。

# 生成器表达式
large_generator = (i for i in range(1_000_000))
print(f"生成器占用内存: {sys.getsizeof(large_generator) / 1024:.2f} KB") # 注意单位从 MB 变为 KB
# 生成器对象本身占用内存很小，与序列的长度无关

从输出可以看出，生成器对象本身占用的内存非常小，因为它并不存储所有元素。它只存储生成元素的逻辑和当前的执行状态。当通过 next() 方法请求一个新元素时，它会计算并返回该元素，然后“忘记”前一个元素（除非有外部引用），从而极大地减少了内存的峰值使用。

应用场景：

处理大型文件：当你需要逐行读取一个几 GB 甚至几十 GB 的文件时，将整个文件加载到内存是不可行的。使用生成器可以逐行读取并处理，而无需一次性加载整个文件。
数据库查询结果：对于返回大量记录的数据库查询，生成器可以实现流式处理结果，避免将所有结果集一次性加载到内存中。
实时数据流：处理来自网络、传感器或其他实时源的数据时，生成器能够按需处理传入的数据块，而不会积累大量历史数据。
计算密集型任务：当计算每个元素成本很高，但又不需要存储所有中间结果时，生成器可以避免不必要的计算和存储。

生成器的惰性求值特性也使其成为实现无限序列的完美选择。在数学中，许多序列是无限的（如自然数序列、斐波那契序列等）。如果尝试将这些序列的无限个元素存储到内存中，显然是不可能的。但生成器可以在需要时生成下一个元素，从而“模拟”无限序列。

无限自然数序列

def natural_numbers():
    n = 0
    while True: # 无限循环，永不停止
        yield n
        n += 1

# 使用无限序列生成器
nats = natural_numbers()
print(next(nats)) # 输出: 0
print(next(nats)) # 输出: 1
print(next(nats)) # 输出: 2

# 从无限序列中取出前 N 个元素
for i, num in enumerate(natural_numbers()):
    if i >= 5: # 必须设置一个退出条件来避免无限循环
        break
    print(num) # 输出: 0, 1, 2, 3, 4

无限斐波那契序列

斐波那契序列是一个经典的无限序列：1, 1, 2, 3, 5, 8, …，其中每个数字是前两个数字的和。

def fibonacci_sequence():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b

# 使用斐波那契生成器
fib_gen = fibonacci_sequence()
for i in range(10): # 取前 10 个斐波那契数
    print(next(fib_gen))
# 输出: 0, 1, 1, 2, 3, 5, 8, 13, 21, 34

在处理无限序列时，务必记住要在消费序列时设置一个明确的停止条件，否则你的程序将进入无限循环，耗尽资源。

高级生成器用法：`send()`, `throw()`, `close()`, `yield from`

除了基本的迭代功能，Python 的生成器还支持更高级的特性，使其能够充当协程（coroutines）的一部分，实现双向通信和更复杂的控制流。

send(value): 不仅可以从生成器获取值，还可以向生成器发送值。send() 方法会恢复生成器执行，并将 value 注入到上一个 yield 表达式的位置。生成器内部的 yield 表达式会返回这个 value。
throw(type, value=None, traceback=None): 允许在生成器内部抛出一个异常，就好像这个异常是在 yield 语句处被引发的一样。这对于通知生成器一个错误条件非常有用。
close(): 用于终止生成器。调用 close() 会在生成器内部引发 GeneratorExit 异常。如果生成器捕获了这个异常但没有重新引发或返回，Python 会在生成器执行 finally 块后抛出 RuntimeError。

def simple_coroutine():
    print("Coroutine started")
    x = yield # 第一个 yield，等待外部 send 值
    print(f"Received {x}")
    y = yield x * 2 # 第二个 yield，处理 x 并等待外部 send 值
    print(f"Received {y}")
    yield y * 3

co = simple_coroutine()
next(co) # 启动协程到第一个 yield
# 输出: Coroutine started

print(co.send(10)) # 向生成器发送 10，并获取下一个 yield 的值
# 输出: Received 10
# 输出: 20 (这是 x * 2 的值)

print(co.send(20)) # 向生成器发送 20，并获取下一个 yield 的值
# 输出: Received 20
# 输出: 60 (这是 y * 3 的值)

# next(co) # 再次调用将引发 StopIteration

yield from: 在 Python 3.3 及以上版本引入，用于将控制权委托给子生成器（subgenerator）。它极大地简化了生成器之间的代码复用和链式调用，使得编写复杂的协程代码更加直观。

def subgenerator():
    yield "Hello"
    yield "World"

def main_generator():
    yield from subgenerator() # 将控制权委托给 subgenerator
    yield "!"

for item in main_generator():
    print(item)
# 输出:
# Hello
# World
# !

yield from 解决了在生成器中循环调用另一个生成器的 yield 语句的繁琐问题，同时还处理了异常传递和返回值。

理解了生成器和迭代器后，何时何地使用它们变得至关重要。

使用生成器（或生成器表达式）的场景：
- 处理大数据集时，追求内存效率和避免峰值内存占用。
- 需要实现无限序列或只需要一次性遍历序列时。
- 迭代逻辑相对简单，且不需维护复杂的状态。
- 当计算下一个元素成本较高，且不需要预先计算所有元素时。
- 作为协程的基础，实现异步编程和并发控制。
使用列表 / 元组（即非惰性容器）的场景：
- 数据集较小，内存占用不是问题。
- 需要频繁地随机访问元素（如通过索引访问）。
- 需要多次迭代同一个序列。
- 需要对序列进行排序、切片或其他列表特有的操作。
自定义迭代器类的场景：
- 迭代逻辑非常复杂，需要维护多个内部状态变量。
- 希望通过面向对象的方式封装迭代逻辑，提供更清晰的接口。
- 需要实现除了 __iter__ 和 __next__ 之外的更多方法。
- 当生成器函数不足以表达复杂的迭代行为时。

大多数情况下，如果你只是想创建一个简单的、按需生成元素的序列，生成器函数或生成器表达式是最佳选择，它们提供了简洁的代码和卓越的性能。当需求上升到复杂的状态管理或双向通信时，可以考虑使用生成器的高级特性或传统的迭代器类。

Python 的生成器与迭代器是其语言设计中优雅且高效的典范。它们通过引入惰性求值的机制，从根本上改变了我们处理大规模数据和构建序列的方式。迭代器为 Python 的 for 循环提供了统一的接口，而生成器则以简洁的语法和强大的内存优化能力，使得创建自定义迭代器变得轻而易举。

无论是为了节省宝贵的内存资源，还是为了构建理论上无限的数据流，生成器都是 Python 开发者工具箱中不可或缺的利器。深入理解并熟练运用它们，将使你的 Python 程序在处理复杂数据场景时更加健壮、高效和 Pythonic。

正文完

Python 内存优化无限序列生成器迭代器

发表至： Python

近三天内

0

Python JSON 数据处理提效利器：jsonpath 库实战指南

Python处理百万级CSV/Excel文件：告别卡顿，实战Pandas高效读写技巧

深度解析 Python 异常处理最佳实践：高效的 try-except 设计与日志记录策略

Python 基础入门 Day02

Python 操作 Redis 缓存：高效数据存储与分布式锁的实战指南

Python 生成器与迭代器：内存优化与无限序列实现的利器

什么是迭代器？理解迭代的基石

生成器：优雅实现迭代器的工厂

内存优化：生成器如何节省宝贵资源

无限序列实现：突破传统限制

高级生成器用法：`send()`, `throw()`, `close()`, `yield from`

最佳实践与选择考量

结论

Playwright page.goto(url) 详解：深入解析网页导航的最佳实践

如何在安卓 Termux 上安装 qBittorrent

深度解析：基于 PyTorch 实现图像分类——从数据集构建到模型训练部署全攻略

如何在Mac上高效使用Terminal：5个实用命令

如何用 Python 批量重命名文件：一步一步的教程

如何用Python爬虫自动化下载网页数据：从入门到精通

Mac 文件管理技巧：如何利用 Spotlight 快速查找文件

Python 性能优化：提升代码执行效率的五个技巧

如何在 Mac 下使用 Ollama 本地部署 DeepSeek

DeepSeek 系列硬件要求与应用场景：为不同需求选择合适的模型

Python 生成器与迭代器：内存优化与无限序列实现的利器

什么是迭代器？理解迭代的基石

生成器：优雅实现迭代器的工厂

内存优化：生成器如何节省宝贵资源

无限序列实现：突破传统限制

高级生成器用法：send(), throw(), close(), yield from

最佳实践与选择考量

结论

高级生成器用法：`send()`, `throw()`, `close()`, `yield from`