python网页数据抓取(1.手机APP数据-写在前面继续练习pyspider的使用 )

优采云 发布时间: 2022-01-06 19:06

  python网页数据抓取(1.手机APP数据-写在前面继续练习pyspider的使用

)

  1. 手机APP资料----写在前面

  继续练习pyspider的使用。最近搜索了一些使用这个框架的tips,发现文档还是挺难懂的,不过暂时没有障碍使用。估计要写5个左右这个框架的教程。今天的教程增加了图片处理,大家可以重点学习。

  2. 手机APP数据页面分析

  我们要爬取的网站就是这个网站我看了一下,大概有2万个页面,每个页面有9条数据,数据量在18万左右。你可以抓住它,稍后进行数据分析。使用时,还可以练习优化数据库。

  

  网站基本没有防爬措施。爬上去,稍微控制一下并发。毕竟不要给别人的服务器太大压力。

  页面分析后,可以看到是基于URL的分页。这很简单。我们首先通过首页得到总页码,然后批量生成所有页码。

  :///rj/new/?page=2:///rj/new/?page=4

  获取总页码的代码

  

  然后抄一个官方中文翻译过来,时刻提醒自己

  

  分页数据已加入待抓取队列。接下来分析爬取到的数据,在detail_page函数中实现。

  

  数据已经集中返回。我们重写 on_result 将数据保存在 mongodb 中。写之前先写一下mongodb链接的相关内容。

  

  数据存储

  

  得到的数据如下表所示。到目前为止,我们已经完成了大部分工作。最后,下载图片并完善它,我们就收工了!

  

  

  3. 手机APP数据----图片存储

  图片下载,其实就是把网络图片保存到一个地址

  

  至此,任务完成,保存后,调整爬虫的爬行速度,点击运行,数据会运行~~~~

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线