如何用Python爬虫代码，实现批量抓取网络图片并保存到本地？

2025年10月13日 13:42 •云服务器知识•阅读 24

在数字化时代，网络图片是重要的信息载体，无论是用于数据分析、机器学习训练集，还是个人素材收集，高效地获取网络图片都显得至关重要，Python凭借其强大的库支持和简洁的语法，成为了实现网络爬虫抓取图片的理想工具，本文将系统性地介绍如何利用Python进行网络图片的抓取，从基本原理到实战演练，再到进阶技巧，旨在为读者提供一份清晰、全面的指南。

网络爬虫图片抓取的基本原理

理解其工作原理是成功编写爬虫的第一步,网络图片抓取过程本质上分为两个核心阶段：

页面解析与链接提取：爬虫需要向目标网页发送HTTP请求，获取网页的HTML内容，通过解析HTML文档，定位到所有的<img>标签，并从中提取出图片的URL地址（即src属性值）,这个URL是图片在服务器上的唯一标识。
下载与保存：获取到图片URL后，爬虫会再次发起HTTP请求，但这次的目标是图片URL本身，服务器会返回图片的二进制数据流，程序将这些二进制数据以文件的形式写入本地存储,完成图片的下载。

整个过程就像一个自动化的“复制-粘贴”流程，只不过“复制”的是网络地址，“粘贴”的是二进制数据。

核心工具库：requests与Beautiful Soup

在Python生态中,有两个库是完成上述任务的黄金搭档：

requests：一个极其人性化的HTTP库，它简化了发送HTTP请求的过程，无论是获取网页HTML还是下载图片二进制流，requests都能用几行代码轻松搞定，它处理了复杂的底层的连接管理,让开发者可以专注于业务逻辑。
Beautiful Soup：一个用于解析HTML和XML文件的库，它能够将复杂的HTML文档转换成一个易于导航的树形结构，开发者可以通过简单的Python对象和方法来搜索、定位和提取所需的数据，例如查找所有的<img>

在开始之前,请确保已安装这两个库：

pip install requests
pip install beautifulsoup4

`实战演练：一步步抓取图片`

下面,我们通过一个具体的例子来演示如何抓取一个网页上的所有图片。

导入必要的库

import requests
from bs4 import BeautifulSoup
import os

发送请求并获取HTML内容定义目标URL，并使用requests获取页面内容，设置一个请求头（Headers），模拟浏览器访问,以降低被网站反爬机制拦截的风险。

url = 'https://www.example.com/gallery'  # 替换为你要抓取的图片页面URL
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # 如果请求失败 (如 404, 500)，会抛出异常
    response.encoding = response.apparent_encoding  # 自动识别编码
    html_content = response.text
except requests.RequestException as e:
    print(f"请求页面失败: {e}")
    exit()

解析HTML并提取图片链接使用Beautiful Soup解析HTML，并找到所有的<img>

soup = BeautifulSoup(html_content, 'html.parser')
img_tags = soup.find_all('img')
# 创建一个文件夹用于存放图片
if not os.path.exists('downloaded_images'):
    os.makedirs('downloaded_images')

遍历链接并下载图片遍历所有找到的<img>标签，提取src属性，然后下载图片,需要注意处理相对路径和绝对路径的问题。

for i, img in enumerate(img_tags):
    img_url = img.get('src')
    if not img_url:
        continue
    # 处理相对路径：如果URL不是以http开头，则补全为绝对路径
    if not img_url.startswith(('http:', 'https:')):
        from urllib.parse import urljoin
        img_url = urljoin(url, img_url)
    try:
        # 获取图片内容
        img_response = requests.get(img_url, headers=headers, timeout=10)
        img_response.raise_for_status()
        # 从URL中提取文件名，或使用序号命名
        file_name = f"image_{i+1}.jpg"
        file_path = os.path.join('downloaded_images', file_name)
        # 以二进制写入模式保存图片
        with open(file_path, 'wb') as f:
            f.write(img_response.content)
        print(f"成功下载: {file_name}")
    except requests.RequestException as e:
        print(f"下载图片失败 {img_url}: {e}")

`进阶技巧与注意事项`

当基础爬虫能够运行后，还需要考虑一些进阶问题，使其更稳定、更高效。

设置合理的延迟：过于频繁的请求会给目标服务器带来巨大压力，并极易导致IP被封，在每次请求之间加入time.sleep()是良好的爬虫习惯。
处理不同类型的图片：网页中的图片可能是.jpg, .png, .gif, .webp等多种格式，可以通过解析URL后缀或响应头中的Content-Type来保存正确的文件格式。
使用代理IP：对于大规模抓取,使用代理IP池可以有效避免因单一IP请求过多而被封锁。
遵守robots.txt协议：这是一个君子协议，规定了网站哪些部分可以被爬虫访问，在开始抓取前，应检查目标网站的robots.txt文件,尊重网站的爬虫政策。

`常用库功能对比`

库名称	主要功能	优点	缺点
requests	HTTP请求处理	简洁、易用、功能强大，是事实上的标准	需要配合其他库进行解析
Beautiful Soup	HTML/XML解析	API友好，学习曲线平缓，处理不规范HTML能力强	解析速度相对较慢
Scrapy	完整爬虫框架	功能全面（异步、管道、中间件），性能高，适合大型项目	学习曲线陡峭，配置相对复杂
Selenium	浏览器自动化	能处理JavaScript动态加载的内容，模拟真实用户操作	速度慢，资源消耗大，需要浏览器驱动

利用Python进行网络图片抓取是一项非常实用的技能，通过掌握requests和Beautiful Soup这两个核心工具，并结合良好的编程习惯，如设置请求头、控制请求频率和进行异常处理，我们就能构建出稳定高效的图片爬虫，从简单的静态页面到复杂的动态网站，Python爬虫的世界充满了探索的乐趣和无限的可能，但请始终牢记，技术应被负责任地使用,尊重数据来源和网站规则是每一位开发者应尽的义务。

`相关问答 (FAQs)`

问题1：抓取到的图片链接是相对路径（如 /images/pic.jpg），如何处理才能正确下载？解答：相对路径是相对于当前网页URL的路径，直接请求会失败，你需要将其转换为绝对路径，最简单的方法是使用Python内置的urllib.parse.urljoin函数，它会根据基础URL（你访问的网页地址）和相对路径，自动拼接出完整的、可访问的绝对URL。

from urllib.parse import urljoin
base_url = 'https://www.example.com/gallery/'
relative_path = '/images/pic.jpg'
absolute_url = urljoin(base_url, relative_path)
# 结果为: 'https://www.example.com/images/pic.jpg'

在代码中，只需在下载图片前，对每个src进行一次urljoin处理即可。

问题2：为什么我的爬虫运行一段时间后就被网站禁止访问了（返回403 Forbidden错误）？解答：这通常是网站的反爬虫机制被触发了,原因可能包括：

请求频率过高：短时间内发送大量请求,被服务器识别为恶意行为。
缺少或错误的请求头：特别是User-Agent，如果没有设置User-Agent，requests默认的标识很容易被识别为爬虫程序。
IP被封禁：服务器记录了你的IP地址,并暂时或永久地禁止了你的访问。

解决方法：

降低请求频率：在循环中加入time.sleep(1)或更长的时间,模拟人类浏览行为。
伪装请求头：设置一个真实的浏览器User-Agent，并可以增加Referer等字段。
使用代理IP：通过切换不同的IP地址来访问，可以避免单一IP被封，可以从网上获取免费或付费的代理IP池，并在requests中通过proxies参数使用。

图片来源于AI模型，如侵权请联系管理员。作者：酷小编，如若转载，请注明出处：https://www.kufanyun.com/ask/3560.html

Python requests 批量下载图片代码Python 爬虫 爬取动态加载的图片Python爬取电商网站商品主图Python爬虫多线程下载图片

赞 (0)

0

生成海报

新手入门HTML5手机网页开发，需要掌握哪些必备知识？上一篇2025年10月13日 13:39

为什么选择瓜瓜云x86边缘计算CDN服务器？下一篇 2025年10月13日 13:46

`相关推荐`

云服务器知识
华为云CCE容器工作负载部署流程是怎样的？有什么注意事项？
华为云云容器引擎（CCE）部署容器工作负载流程简介华为云云容器引擎（Cloud Container Engine，简称CCE）是华为云提供的一种基于Kubernetes的容器服务，旨在帮助企业快速、高效地部署和管理容器化应用，本文将详细介绍CCE部署容器工作负载的流程,帮助您更好地理解和应用CCE，准备工作注册……
2025年11月21日0040
云服务器知识
云市场严选商品购买流程是怎样的？新手用户就看这篇操作指南。
在数字化转型的浪潮中，企业对于高效、安全、可靠的云服务需求日益增长，云市场作为汇聚各类软件、服务及解决方案的一站式平台，为用户提供了极大的便利，“严选商品”因其经过平台严格筛选与认证，品质与服务更有保障，成为了众多用户的首选，本篇用户操作指南将详细阐述如何购买云市场严选商品，帮助您轻松完成选购,为业务发展注入强……
2025年10月19日0090
云服务器知识
如何将Caffe和Tensorflow模型转换到昇腾平台？
在人工智能技术飞速发展的浪潮中，华为昇腾作为全栈全场景AI计算基础设施，正为各类AI应用提供强大的算力支持，要让海量既有的、基于主流深度学习框架开发的AI模型在昇腾硬件上发挥出极致性能，模型转换便成为了不可或缺的关键环节，本文将围绕昇腾Ascend平台，深入探讨Caffe与TensorFlow两大主流框架的模型……
2025年10月16日0090
云服务器知识
如何高效查询指定namespace的EventslistCoreV1NamespacedEvent云容器实例API？
在云容器实例管理中,查询指定namespace下的EventslistCoreV1NamespacedEvent是一个重要的操作，它可以帮助我们了解namespace内容器实例的状态变化，本文将详细介绍如何使用云容器实例API进行这一查询操作，并提供相关示例，云容器实例API提供了丰富的功能,其中包括对name……
2025年11月18日0040