scrapy分页抓取网页(scrapy分页抓取网页列表项-all-workflows/scrapy/per_url_number分页爬取)

优采云发布时间: 2021-10-30 07:09

　　scrapy分页抓取网页列表项-all-workflows/

　　scrapy分页爬取网页列表/http/

　　同问。最近也想抓取这个：想采集单个网页的指定位置的文字，但是我觉得有道云笔记里的例子不太符合我的思路。

　　follow-github

　　scrapy的库提供了一些机制，爬虫可以针对分页来进行爬取，

　　可以看一下scrapy解决跨站抓取发函数的问题。

　　最近也研究过此问题。基本上就是：不同页面写多个代码，同时迭代爬取。然后merge。比如同一页的每个文字都进行同时爬取。就是用scrapy爬取完一页的所有词汇，然后存入新文件。同时迭代整个页面的词汇，然后爬取整页。

　　httpurl地址的链接格式一般有三种形式：

　　1）.user-agent:scrapy_crawler/spider.pyid/per_url_number

　　2).user-agent:scrapy_crawler/spider.pyid/numpy_id

　　3).user-agent:scrapy_crawler/spider.pyid/per_url_number分别对应爬虫id、thetaid、numpyid

　　注意留下交叉链接

　　都是如何利用scrapy解决跨页抓取问题的爬虫框架也不只有scrapy，

　　一般来说，大部分网站分页太少，那么完整抓取一页也不是很难，关键要是当页有个1000以上，然后再打开一个网页，需要选择1/1000个文字抓取一个页面的话那真的要抓取半天的。答主现在正在用的是第二种，简单粗暴就是抓过来存数据库，然后跟某些网站的内容数据库差不多就行，但是现在都是用redis来存管理，因为springboot的话在configure的时候需要defaultworker节点。

　　并且topic选择可以自己写，也可以是框架代理的方式（就是只抓过一次）有人说用redis，我个人感觉很蛋疼，因为你还得写schema（库里面有代理，就不要用自己写的了，自己写的schema对于分页短，内容少的网站来说根本不能满足要求）。总体来说想解决完整的爬虫，除了collection相关的专业框架，各个框架都可以，我现在用的是pymongo，前端我一直用selenium-splash（某个谷歌的爬虫插件，当然有自己写的），后端redis就可以。

0

2021-10-30

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

scrapy分页抓取网页(scrapy分页抓取网页列表项-all-workflows/scrapy/per_url_number分页爬取)

0 个评论

发起人