用 Python 实现高效爬虫：requests+BeautifulSoup 避坑指南

181次阅读

共计 8500 个字符，预计需要花费 22 分钟才能阅读完成。

在信息爆炸的今天，数据无疑是最宝贵的资源之一。而网络爬虫，正是我们获取这些海量数据的利器。Python 凭借其简洁的语法和丰富的第三方库，成为了开发爬虫的首选语言。在众多库中，requests和 BeautifulSoup 这对组合因其易用性和强大功能，被誉为“爬虫界的黄金搭档”：requests负责发送 HTTP 请求，获取网页内容；BeautifulSoup则专注于解析 HTML/XML 文档，从中提取所需数据。

然而，从零开始构建一个高效、稳定、健壮的爬虫并非易事。在实际操作中，开发者常常会遇到各种“坑”，如 IP 被封、数据解析失败、效率低下等。本文将深入探讨如何使用 requests 和BeautifulSoup实现高效爬虫，并结合实战经验，为你提供一份详尽的“避坑指南”，助你成为一名合格的网络拓荒者。

requests库是 Python 中用于发送 HTTP 请求的强大工具，它以用户友好的 API 设计，极大地简化了网络请求的复杂性。

最基本的 GET 请求非常简单：

import requests

url = "http://example.com"
response = requests.get(url)
print(response.status_code) # HTTP 状态码
print(response.text)        # 网页文本内容

对于 POST 请求，可以通过 data 参数传递表单数据，或 json 参数传递 JSON 数据。response对象包含了服务器返回的所有信息，如状态码 (status_code)、响应头(headers)、编码(encoding) 和文本内容(text/content)。

很多网站会根据请求头判断请求的来源，例如User-Agent，如果不是常见的浏览器 User-Agent，可能会被拒绝。

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "http://example.com/some_page" # 某些网站会检查来源页
}
response = requests.get(url, headers=headers)

对于需要保持会话（如登录）的场景，requests.Session()是不可或缺的。它能自动管理cookies，并在请求之间保持 TCP 连接，提升效率。

session = requests.Session()
# 登录操作
login_data = {"username": "your_user", "password": "your_password"}
session.post("http://example.com/login", data=login_data, headers=headers)
# 后续请求都会携带登录后获取的 cookie
response = session.get("http://example.com/secure_page", headers=headers)

网络请求可能因各种原因失败，如网络连接中断、服务器响应缓慢等。设置 timeout 参数可以避免程序长时间等待。

try:
    response = requests.get(url, headers=headers, timeout=10) # 10 秒超时
    response.raise_for_status() # 检查响应状态码，如果不是 2xx，则抛出 HTTPError 异常
except requests.exceptions.RequestException as e:
    print(f"请求发生错误: {e}")

raise_for_status()是一个非常实用的方法，它能将非 2xx 的状态码转换为 HTTPError 异常，方便统一处理。

BeautifulSoup库（通常导入为bs4）能够从 HTML 或 XML 文件中提取数据。它构建了一个树形结构，让我们可以通过标签名、属性、CSS 选择器等多种方式轻松定位元素。

首先，将 requests 获取到的网页内容传递给 BeautifulSoup 进行解析。

from bs4 import BeautifulSoup

html_doc = response.text
soup = BeautifulSoup(html_doc, 'html.parser') # 'html.parser' 是 Python 内置的解析器

'lxml'和 'html5lib' 是更强大、更容错的解析器，如果安装了它们，建议优先使用，例如BeautifulSoup(html_doc, 'lxml')。

BeautifulSoup提供了多种查找元素的方法：

find()和find_all(): 通过标签名、属性查找。

title_tag = soup.find('title') # 找到第一个 <title> 标签
all_links = soup.find_all('a') # 找到所有 <a> 标签
div_with_class = soup.find('div', class_='my_class') # 查找 class 为 my_class 的 <div>

select(): 使用 CSS 选择器，这是最强大和灵活的方式。

# 查找所有 class 为 article-title 的 h2 标签
article_titles = soup.select('h2.article-title')
# 查找 id 为 main-content 的 div 下的所有 p 标签
paragraphs = soup.select('#main-content p')
# 查找所有具有 data-id 属性的 a 标签
elements_with_attr = soup.select('a[data-id]')

找到目标元素后，可以提取其文本内容或属性值：

# 提取文本
if title_tag:
    print(title_tag.get_text()) # 或 title_tag.text

# 提取属性
for link in all_links:
    href = link.get('href') # 获取 href 属性值
    if href:
        print(href)

作为爬虫开发者，我们首先要做的就是尊重网站的权利和服务器的负担。做一个“有礼貌”的爬虫，是保证爬虫长期稳定运行的基础。

几乎所有网站根目录下都会有一个 robots.txt 文件，它规定了哪些内容允许被爬取，哪些不允许。在爬取前，务必检查并遵循它。

# 访问网站的 robots.txt
robots_url = "http://example.com/robots.txt"
try:
    robots_response = requests.get(robots_url, timeout=5)
    if robots_response.status_code == 200:
        print(robots_response.text) # 解析此文件，判断是否允许爬取
except requests.exceptions.RequestException:
    print("无法获取 robots.txt")

虽然 robots.txt 是君子协议，但遵循它能避免很多不必要的麻烦，降低被封禁的风险。

频繁地请求同一个网站，会被视为恶意行为，导致 IP 被封。使用 time.sleep() 在每次请求之间设置随机或固定的延迟，可以模拟人类浏览行为，减轻服务器压力。

import time
import random

# ... (你的爬虫代码)
for page_num in range(1, 10):
    url = f"http://example.com/page/{page_num}"
    response = requests.get(url, headers=headers, timeout=10)
    # ... (处理响应)
    sleep_time = random.uniform(2, 5) # 每次请求间隔 2 到 5 秒
    print(f"暂停 {sleep_time:.2f} 秒...")
    time.sleep(sleep_time)

这种做法不仅礼貌，也能有效延长爬虫的生命周期。

网站常通过 User-Agent 识别访问者类型。使用默认的requests User-Agent 很容易被识别为爬虫。因此，伪装成常见的浏览器 User-Agent 是必须的。最好准备一个 User-Agent 池，每次请求随机选用一个，增加真实性。

user_agents = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0"
]

headers = {"User-Agent": random.choice(user_agents),
    "Referer": "http://example.com"
}
response = requests.get(url, headers=headers)

网络环境复杂多变，爬虫必须足够健壮，才能应对各种突发情况。

除了requests.exceptions.RequestException，还需要关注 HTTP 状态码：

403 Forbidden/404 Not Found: 请求被拒绝或资源不存在。检查 URL、请求头或是否被封禁。
429 Too Many Requests: 请求过于频繁。需要增加 time.sleep() 时间。
5xx Server Error: 服务器内部错误。通常是暂时性的，可以尝试重试。

建议为请求添加重试机制，特别是针对网络波动或服务器暂时性错误（如 5xx 状态码）。

from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

def requests_retry_session(
    retries=3,
    backoff_factor=0.3,
    status_forcelist=(500, 502, 504),
    session=None,
):
    session = session or requests.Session()
    retry = Retry(
        total=retries,
        read=retries,
        connect=retries,
        backoff_factor=backoff_factor,
        status_forcelist=status_forcelist,
    )
    adapter = HTTPAdapter(max_retries=retry)
    session.mount('http://', adapter)
    session.mount('https://', adapter)
    return session

# 使用带重试机制的 session
s = requests_retry_session()
try:
    response = s.get(url, headers=headers, timeout=10)
    response.raise_for_status()
    # ... 处理响应
except requests.exceptions.RequestException as e:
    print(f"请求失败并重试后仍然错误: {e}")

requests和 BeautifulSoup 只能获取和解析服务器返回的原始 HTML。如果网站内容是通过 JavaScript 动态加载（如 AJAX 请求）或在客户端渲染的，那么 requests 获取到的 HTML 可能不包含你想要的数据。这是 requests+BeautifulSoup 组合的一个主要局限性。

避坑方案：

分析网络请求 : 打开浏览器开发者工具（F12），在“Network”选项卡中检查页面加载时的 XHR/Fetch 请求。很多动态加载的数据都是通过这些 API 请求获取的 JSON 或 XML 数据，你可以直接用requests 模拟这些 API 请求。
寻求其他工具 : 如果上述方法无效，或网站大量内容依赖 JavaScript 渲染，则需要使用Selenium 或Playwright这类能够驱动浏览器执行 JavaScript 的工具。它们会启动一个真实的浏览器实例，等待页面完全加载和渲染，然后再获取渲染后的 HTML。

当你的 IP 地址被网站检测到异常请求并封禁时，代理 IP 是绕过封禁的有效手段。你可以购买高质量的代理 IP 服务，或搭建自己的代理池。

proxies = {
    "http": "http://user:pass@proxy_ip:port",
    "https": "https://user:pass@proxy_ip:port",
}
try:
    response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
    # ...
except requests.exceptions.ProxyError as e:
    print(f"代理请求失败: {e}")
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

使用代理时，要确保代理 IP 的可用性和稳定性。频繁更换代理、使用低质量的免费代理可能反而降低效率或触发更多反爬。

requests.Session()除了能自动处理 Cookie 外，还能进行连接池管理，从而提高性能。对于需要登录才能访问的页面，利用 Session 保持登录状态是关键。
确保你的 session 对象在需要保持状态的所有请求中都被复用，而不是每次请求都新建一个Session。

在处理大量数据时，爬虫的效率至关重要。

requests.Session()通过保持 TCP 连接（即连接池）来减少建立连接的开销，这对于多次访问同一域名下的资源尤其有效。

session = requests.Session()
# 针对同一个域名进行多次请求时，Session 会复用连接
for i in range(5):
    response = session.get(f"http://example.com/data/{i}", headers=headers)
    # ... 处理数据

当需要爬取大量页面时，串行请求效率低下。可以通过并发（多线程 / 多进程）或异步（asyncio + httpx/aiohttp）来加速。

多线程 / 多进程 : 对于 IO 密集型任务（如网络请求），Python 的 GIL 对多线程的影响较小。可以使用concurrent.futures 模块的ThreadPoolExecutor。
异步 : asyncio 结合 aiohttp 或httpx是更现代且高效的异步网络请求方式，它能以非阻塞的方式处理大量并发连接，但学习曲线相对陡峭。

在 requests 和BeautifulSoup的语境下，ThreadPoolExecutor是一个相对简单的提升并发效率的选择。

from concurrent.futures import ThreadPoolExecutor

urls = [f"http://example.com/page/{i}" for i in range(1, 101)]

def fetch_url(url):
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        # 处理响应并返回结果
        return f"成功爬取: {url}, 状态码: {response.status_code}"
    except requests.exceptions.RequestException as e:
        return f"爬取失败: {url}, 错误: {e}"

# 使用 10 个线程并发爬取
with ThreadPoolExecutor(max_workers=10) as executor:
    results = list(executor.map(fetch_url, urls))
    for res in results:
        print(res)

BeautifulSoup的 select() 方法使用 CSS 选择器进行查找，通常比 find()/find_all() 结合复杂的字典参数或循环判断要快，且代码更简洁易读。尤其在需要精确定位特定嵌套元素时，CSS 选择器的优势更为明显。

# 推荐使用 CSS 选择器
# 查找 id 为 product-list 的 div 下所有 class 为 item-title 的 span 标签
product_titles = soup.select('div#product-list span.item-title')

# 避免复杂的链式 find_all，这可能效率较低
# product_list_div = soup.find('div', id='product-list')
# if product_list_div:
#     product_titles_inefficient = product_list_div.find_all('span', class_='item-title')

随着爬虫技术的普及，网站的反爬机制也日益复杂。

图片验证码 / 滑动验证 : requests 和BeautifulSoup无法直接处理。通常需要借助第三方 OCR 服务、打码平台或 Selenium 等模拟人工操作。
IP 封禁: 前面提到的代理 IP 是主要解决方案。
Referer 检查 : 有些网站会检查请求的来源页面，确保是从其内部链接跳转而来。在headers 中设置正确的 Referer 即可。
Cookie 检查 : 确保Session 正确管理和发送Cookie。
动态参数签名: 某些网站的请求参数（如 API 接口）会包含加密或动态生成的签名。这需要逆向分析 JavaScript 代码，找出签名算法，然后用 Python 实现。这是最困难的反爬类型之一。
User-Agent 黑白名单 : 随机轮换User-Agent 池。
Honeypot（蜜罐）: 网站在页面中放置一些对用户不可见但爬虫可见的链接或数据，如果爬虫访问了这些“陷阱”，就会被识别并封禁。在解析时要特别注意 display: none 或visibility: hidden等 CSS 属性，避免误入蜜罐。

对于需要登录的网站，requests.Session()是处理登录状态和 Cookie 的关键。

模拟登录请求: 通过分析浏览器开发者工具，找到登录的 POST 请求 URL、表单参数名和值。
使用 Session 发送登录请求 : 将登录信息通过data 或json参数传给session.post()。
后续请求复用 Session: 登录成功后，Session对象会自动保存服务器返回的 Cookie。之后所有通过该Session 发送的请求都会自动带上这些Cookie，从而保持登录状态。

requests和 BeautifulSoup 是 Python 爬虫领域的两大基石，它们以简洁高效的方式解决了 HTTP 请求和 HTML 解析的核心问题。然而，要构建一个真正高效、健壮且“有礼貌”的爬虫，仅仅掌握这两个库的基本用法是远远不够的。

本文从道德规范、健壮性、效率优化和反爬机制四个维度，为你提供了全面的避坑指南：尊重robots.txt、设置请求间隔、伪装 User-Agent 是基本素养；处理网络异常、使用代理、分析动态内容是确保爬虫稳定运行的关键；利用Session、并发和 CSS 选择器能显著提升爬取效率；而识别并绕过反爬机制，则是对爬虫工程师智慧和耐心的终极考验。

爬虫世界充满挑战，但每一次成功的数据捕获都伴随着解决问题的乐趣。希望这份指南能帮助你在 Python 爬虫的道路上少走弯路，成为一名出色的网络数据探索者。

正文完