Python Crawler Training Project

第5组 Python 爬虫实训项目展示

本项目围绕小说文本采集与百度图片采集两个任务展开,完整呈现爬虫设计、源码文件、汇报材料、运行结果与可视化成果。

项目介绍

第5组本次实训完成了两个 Python 爬虫程序,并将结果整理为可下载、可查看、可演示的静态网站。页面结构按汇报使用场景组织,便于老师快速了解项目目标、实现方式和最终成果。

2 个爬虫任务
2 份源码文件
8 张结果图片
PPT 汇报材料

任务一

小说爬虫

自动访问小说目录页和章节页,提取章节标题、正文内容,保存文本文件,并生成章节字数与高频词统计图。

任务二

百度图片爬虫

根据关键词批量搜索图片,提取图片链接并下载保存,支持去重、格式识别、异常处理和 GUI 图形界面。

展示方式

静态网站汇总

将 PPT、源码、统计图和图片结果统一托管到 Cloudflare Pages,形成一个便于访问和提交的项目展示站。

PPT下载

汇报材料提供新版 PPTX 和兼容版 PPT,适合在不同版本 PowerPoint 或 WPS 中打开。

PPTX

第5组前两次实训任务汇报

推荐下载版本,包含实训任务说明、实现过程、运行结果和总结内容。

下载 PPTX

PPT

兼容版汇报文件

用于兼容旧版办公软件,避免因版本差异导致文件无法打开。

下载兼容版

源码下载

两个爬虫均整理为单文件 Python 程序,便于提交、检查和独立运行。

Novel Spider

小说爬虫源码

集成命令行与图形界面,支持章节抓取、正文清洗、文本保存、CSV 统计和图表输出。

  • requests 请求网页
  • BeautifulSoup 解析内容
  • pandas 统计数据
  • matplotlib 生成图表
下载源码

Baidu Image Spider

百度图片爬虫源码

根据关键词抓取图片,支持下载数量控制、保存路径设置、图片去重、代理模式和 GUI 操作。

  • 关键词搜索图片
  • 自动识别图片格式
  • SHA256 去重
  • 失败重试与异常跳过
下载源码

成果展示

以下为小说爬虫生成的统计图,以及百度图片爬虫下载得到的示例图片结果。

小说爬虫统计结果

通过章节字数和词频图,可以直观看到文本数据的规模和高频关键词。

小说章节字数统计图
章节字数统计图
小说词频统计图
词频统计图

百度图片爬取结果

示例图片来自关键词搜索结果,展示图片采集、保存和结果整理效果。

问题与总结

项目实现过程中重点解决了网页结构变化、反爬限制、图片链接失效和文件兼容性等实际问题。

遇到的问题

  • 部分网页存在基础反爬限制,请求过快容易失败。
  • 小说章节页结构不完全统一,需要兼容不同正文容器。
  • 图片链接可能重复、失效,图片格式也不固定。
  • 不同电脑的网络代理设置会影响爬虫请求结果。

解决方法

  • 添加 User-Agent、Referer、请求间隔和失败重试。
  • 使用多个解析规则,提高章节正文提取成功率。
  • 通过文件头识别图片格式,并使用哈希值去重。
  • 提供自动、直连、系统代理和自定义代理模式。

实训收获

  • 掌握请求、解析、清洗、保存、统计和展示的完整流程。
  • 熟悉 requests、BeautifulSoup、pandas、matplotlib 等工具。
  • 提升了调试网络问题、整理成果和项目展示的能力。
  • 将零散文件整理为可在线访问的完整项目页面。