网页小说抓取 ios( Python爬虫私信学习资料领取目标的案例源码! )

优采云 发布时间: 2022-01-28 23:03

  网页小说抓取 ios(

Python爬虫私信学习资料领取目标的案例源码!

)

  

  想收到更多关于Python爬虫的案例源码,可以关注小编私信领取学习资料

  1.目标

  排行榜地址:

  在各个排名旁边找到每部小说的名称,以及 网站 中的链接。

  2.观察页面结构

  

  很容易看出每个类别都收录在:

  

  之中,

  这个组织良好的 网站 极大地方便了爬虫的编写。

  找到当前页面所有小说的链接,并保存在列表中。

  3.列表去重提示

  即使是不同类别的小说,也会在排行榜中反复出现。

  这样一来,就会无形中浪费大量资源,尤其是面对大量网页的爬取。

  只需一行代码即可解决此问题:

  

  此处调用列表构造函数集:这确保列表中没有重复元素。

  4.代码实现

  模块化、函数式编程是一个很好的习惯,坚持把每个独立的函数都写成一个函数,这样会让代码简单且可重用。

  

  

  

  获取该小说每个章节的url地址,并创建小说文件

  

  

  

  

  

  5.缺点

  这次爬虫写得这么流畅,更多是因为网站爬取没有反爬技术,文章分类清晰,结构美观。

  不过按照这篇文章爬小说的思路,我粗略算了一下:一本文章需要:0.5s,一本小说(约1000条):8.5分钟,所有排行榜(60 份):8.5 小时!

  那么,这个单线程爬虫的速度如何提升呢?

  自己写一个多线程模块?

  其实还有更好的办法:Scrapy框架

  以后可以在这里重构代码,速度会提升几十倍甚至上百倍!这其实就是多线程的威力!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线