python网页数据抓取(1.手机APP数据-写在前面继续练习pyspider的使用 )

优采云发布时间: 2022-01-06 19:06

　　python网页数据抓取(1.手机APP数据-写在前面继续练习pyspider的使用

)

　　1. 手机APP资料----写在前面

　　继续练习pyspider的使用。最近搜索了一些使用这个框架的tips，发现文档还是挺难懂的，不过暂时没有障碍使用。估计要写5个左右这个框架的教程。今天的教程增加了图片处理，大家可以重点学习。

　　2. 手机APP数据页面分析

　　我们要爬取的网站就是这个网站我看了一下，大概有2万个页面，每个页面有9条数据，数据量在18万左右。你可以抓住它，稍后进行数据分析。使用时，还可以练习优化数据库。

　　网站基本没有防爬措施。爬上去，稍微控制一下并发。毕竟不要给别人的服务器太大压力。

　　页面分析后，可以看到是基于URL的分页。这很简单。我们首先通过首页得到总页码，然后批量生成所有页码。

　　:///rj/new/?page=2:///rj/new/?page=4

　　获取总页码的代码

　　然后抄一个官方中文翻译过来，时刻提醒自己

　　分页数据已加入待抓取队列。接下来分析爬取到的数据，在detail_page函数中实现。

　　数据已经集中返回。我们重写 on_result 将数据保存在 mongodb 中。写之前先写一下mongodb链接的相关内容。

　　数据存储

　　得到的数据如下表所示。到目前为止，我们已经完成了大部分工作。最后，下载图片并完善它，我们就收工了！

　　3. 手机APP数据----图片存储

　　图片下载，其实就是把网络图片保存到一个地址

　　至此，任务完成，保存后，调整爬虫的爬行速度，点击运行，数据会运行~~~~

0

2022-01-06

python网页数据抓取

0 个评论

要回复文章请先登录或注册