scrapy分页抓取网页(scrapy爬虫分页抓取网页资源的方法:requests+xpath)
优采云 发布时间: 2021-12-02 11:05scrapy分页抓取网页(scrapy爬虫分页抓取网页资源的方法:requests+xpath)
scrapy分页抓取网页所以我们首先得准备爬虫所需的工具python3.5以上版本,matplotlib库(最好用)然后搭建一个python爬虫学习路线的话,把几本经典的python爬虫入门书籍看一遍(比如《利用python进行数据分析》等),再把一些经典的python爬虫案例实战做一下就差不多了。关于怎么把网站抓下来,这个可以看看那些爬虫论坛,比如itemitage之类的。
然后你就可以把爬虫用python写出来了。爬虫主要还是采集网页中各个链接的信息,所以网页数据来源是关键,可以看我简单总结的2种获取网页资源的方法:requests+xpath。最后编写一个ajax模块,处理多个网页中某一个部分的信息。
你这个东西的前端感觉有点简单,chrome能帮你做。但是直接一个cookie效率太低了,一直认为这么做是个坑。而且你以前肯定有把内容备份过。所以可以用flaskweb框架,然后自己写爬虫代码。直接tagurls就可以了,注意要redirect。抓到链接之后,直接requests拿到这个链接,另存为就可以了。
或者用requests之后再转mysql.selectxml,用pymysql,会快点。但是如果是爬取一个静态内容的话,还是能写出来但是不太高效。
我没有这个架构,也没这个经验,所以给不了太有用的答案。这个问题很好,借此机会先抛砖引玉,求不喷。先回答怎么拿到网页,再针对这个网页的内容做什么。抓取网页,其实不难。我们当然能直接拿到某个bbs首页,这对一个bbs简直是不要太简单。问题是从bbs首页爬取,有些什么问题,导致相关爬虫的兼容性问题,我们也能直接拿到但是不方便。
比如,某个用户有发表内容,你这个时候在同一个页面发送的连接直接抓,可能有些不方便查看。怎么获取首页,我们第一步是要获取title标题。所以我们首先要实现title的获取。推荐用requests库,可以直接返回网页内容,接下来只需要将其与第三方库(github,selenium等)的接口进行接入,就能获取gif图片的title。
至于配置方法,不用我说你也知道。然后我们可以获取某条评论的title标题,接下来我们要获取某个用户的title评论。因为这个时候用户不可能同时有评论,而最常见的评论格式就是“某人点了赞”,那么利用while(1)来tag这个评论的title,我们就可以爬取第二条评论的title。这样一个tag就完成了。
如果需要跳转评论,那么我们就tag评论的首行,就可以跳转到对应评论。这样也不需要我们重复tag第二条评论的title,不过要记得,我们需要将第一条评论的title作为返回值。实现这样的功能需要用到requests、while、github、selen。