第5组 Python 爬虫实训项目展示

Project Overview

项目介绍

第5组本次实训完成了两个 Python 爬虫程序，并将结果整理为可下载、可查看、可演示的静态网站。页面结构按汇报使用场景组织，便于老师快速了解项目目标、实现方式和最终成果。

2 个爬虫任务

2 份源码文件

8 张结果图片

PPT 汇报材料

任务一

小说爬虫

自动访问小说目录页和章节页，提取章节标题、正文内容，保存文本文件，并生成章节字数与高频词统计图。

任务二

百度图片爬虫

根据关键词批量搜索图片，提取图片链接并下载保存，支持去重、格式识别、异常处理和 GUI 图形界面。

展示方式

静态网站汇总

将 PPT、源码、统计图和图片结果统一托管到 Cloudflare Pages，形成一个便于访问和提交的项目展示站。

Presentation

PPT下载

汇报材料提供新版 PPTX 和兼容版 PPT，适合在不同版本 PowerPoint 或 WPS 中打开。

PPTX

第5组前两次实训任务汇报

推荐下载版本，包含实训任务说明、实现过程、运行结果和总结内容。

下载 PPTX

PPT

兼容版汇报文件

用于兼容旧版办公软件，避免因版本差异导致文件无法打开。

下载兼容版

Source Code

源码下载

两个爬虫均整理为单文件 Python 程序，便于提交、检查和独立运行。

Novel Spider

小说爬虫源码

集成命令行与图形界面，支持章节抓取、正文清洗、文本保存、CSV 统计和图表输出。

requests 请求网页
BeautifulSoup 解析内容
pandas 统计数据
matplotlib 生成图表

下载源码

Baidu Image Spider

百度图片爬虫源码

根据关键词抓取图片，支持下载数量控制、保存路径设置、图片去重、代理模式和 GUI 操作。

关键词搜索图片
自动识别图片格式
SHA256 去重
失败重试与异常跳过

下载源码

Results

成果展示

以下为小说爬虫生成的统计图，以及百度图片爬虫下载得到的示例图片结果。

小说爬虫统计结果

通过章节字数和词频图，可以直观看到文本数据的规模和高频关键词。

百度图片爬取结果

示例图片来自关键词搜索结果，展示图片采集、保存和结果整理效果。

Review

问题与总结

项目实现过程中重点解决了网页结构变化、反爬限制、图片链接失效和文件兼容性等实际问题。

遇到的问题

部分网页存在基础反爬限制，请求过快容易失败。
小说章节页结构不完全统一，需要兼容不同正文容器。
图片链接可能重复、失效，图片格式也不固定。
不同电脑的网络代理设置会影响爬虫请求结果。

解决方法

添加 User-Agent、Referer、请求间隔和失败重试。
使用多个解析规则，提高章节正文提取成功率。
通过文件头识别图片格式，并使用哈希值去重。
提供自动、直连、系统代理和自定义代理模式。

实训收获

掌握请求、解析、清洗、保存、统计和展示的完整流程。
熟悉 requests、BeautifulSoup、pandas、matplotlib 等工具。
提升了调试网络问题、整理成果和项目展示的能力。
将零散文件整理为可在线访问的完整项目页面。