[ Python 爬虫] 新手练手利器:高质量套图爬虫

高质量套图爬虫

源码 Github https://github.com/LookCos/spider-taotu

大致说一下流程,爬虫先获得一个栏目网址,随后通过层层解析,得到每一个图集的的名称 、标签、和所有图片的地址并存到 sqlite3 数据库中,文件下载时默认命名为 图片链接的 md5 值。

抓取和下载的过程均为多线程,可以通过调整延时来调整速度。

附:

1. 13MB 的套图信息数据库

2. 简单的多线程现在图片演示程序

0.照片展示

这里图片下载略乱,但是可以通过简单的修改下载程序,将一套图下载在一个文件夹内。

m4otCpLR.png (1659×739) ZVfaFP90.jpg (1200×800)
1 Aj5p2bYq.jpg (800×1200)

1.字段展示

toHvmJXQ.png (602×200)

2.测试展示

xm5Yz0cr.png (1645×993)

3.爬取过程展示


4.下载过程展示

kpgLxACV.gif (599×352)

评论

此博客中的热门博文

将博客部署到星际文件系统(IPFS)

高中地理必修一知识点总结

一场CF的台前幕后(下)