scrapy分页抓取网页(scrapy爬虫分页抓取网页资源的方法：requests+xpath)

优采云发布时间: 2021-12-02 11:05

　　scrapy分页抓取网页所以我们首先得准备爬虫所需的工具python3.5以上版本，matplotlib库（最好用）然后搭建一个python爬虫学习路线的话，把几本经典的python爬虫入门书籍看一遍（比如《利用python进行数据分析》等），再把一些经典的python爬虫案例实战做一下就差不多了。关于怎么把网站抓下来，这个可以看看那些爬虫论坛，比如itemitage之类的。

　　然后你就可以把爬虫用python写出来了。爬虫主要还是采集网页中各个链接的信息，所以网页数据来源是关键，可以看我简单总结的2种获取网页资源的方法：requests+xpath。最后编写一个ajax模块，处理多个网页中某一个部分的信息。

　　你这个东西的前端感觉有点简单，chrome能帮你做。但是直接一个cookie效率太低了，一直认为这么做是个坑。而且你以前肯定有把内容备份过。所以可以用flaskweb框架，然后自己写爬虫代码。直接tagurls就可以了，注意要redirect。抓到链接之后，直接requests拿到这个链接，另存为就可以了。

　　或者用requests之后再转mysql.selectxml，用pymysql，会快点。但是如果是爬取一个静态内容的话，还是能写出来但是不太高效。

　　我没有这个架构，也没这个经验，所以给不了太有用的答案。这个问题很好，借此机会先抛砖引玉，求不喷。先回答怎么拿到网页，再针对这个网页的内容做什么。抓取网页，其实不难。我们当然能直接拿到某个bbs首页，这对一个bbs简直是不要太简单。问题是从bbs首页爬取，有些什么问题，导致相关爬虫的兼容性问题，我们也能直接拿到但是不方便。

　　比如，某个用户有发表内容，你这个时候在同一个页面发送的连接直接抓，可能有些不方便查看。怎么获取首页，我们第一步是要获取title标题。所以我们首先要实现title的获取。推荐用requests库，可以直接返回网页内容，接下来只需要将其与第三方库（github，selenium等）的接口进行接入，就能获取gif图片的title。

　　至于配置方法，不用我说你也知道。然后我们可以获取某条评论的title标题，接下来我们要获取某个用户的title评论。因为这个时候用户不可能同时有评论，而最常见的评论格式就是“某人点了赞”，那么利用while(1)来tag这个评论的title，我们就可以爬取第二条评论的title。这样一个tag就完成了。

　　如果需要跳转评论，那么我们就tag评论的首行，就可以跳转到对应评论。这样也不需要我们重复tag第二条评论的title，不过要记得，我们需要将第一条评论的title作为返回值。实现这样的功能需要用到requests、while、github、selen。

0

2021-12-02

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

scrapy分页抓取网页(scrapy爬虫分页抓取网页资源的方法：requests+xpath)

0 个评论

发起人