推荐文章:如何利用Scrapy爬虫框架抓取网页全部文章信息(上篇)

优采云 发布时间: 2022-11-08 10:56

  推荐文章:如何利用Scrapy爬虫框架抓取网页全部文章信息(上篇)

  点击上方“Python爬虫与数据挖掘”关注

  回复“书籍”获取Python从入门到进阶共10本电子书

  这个

  天

  鸡

  汤

  孤灯陷入沉思,卷起帘子,望着月空叹息。

  /前言/

  

  前段时间小编给大家分享了Xpath和CSS选择器的具体用法。有兴趣的朋友可以戳这些文章文章复习,,,,,,,学习如何使用选择器。它可以帮助您更好地利用 Scrapy 爬虫框架。在接下来的几篇文章中,小编会讲解爬虫主文件的具体代码实现过程,最终实现对网页所有内容的爬取。

  上一阶段,我们通过Scrapy实现了特定网页的具体信息,但还没有实现对所有页面的顺序提取。首先,我们来看看爬取的思路。大致思路是:当获取到第一页的URL后,再将第二页的URL发送给Scrapy,这样Scrapy就可以自动下载该页的信息,然后传递第二页的URL。URL继续获取第三页的URL。由于每个页面的网页结构是一致的,这样就可以通过反复迭代来实现对整个网页的信息提取。具体实现过程将通过Scrapy框架实现。具体教程如下。

  /执行/

  1.首先,URL不再是特定文章的URL,而是所有文章列表的URL,如下图,并将链接放在start_urls中,如图在下图中。

  2. 接下来我们需要改变 parse() 函数,在这个函数中我们需要实现两件事。

  一种是获取一个页面上所有文章的URL并解析,得到每个文章中具体的网页内容,另一种是获取下一个网页的URL并手它交给 Scrapy 进行处理。下载,下载完成后交给parse()函数。

  有了前面 Xpath 和 CSS 选择器的基础知识,获取网页链接 URL 就相对简单了。

  

  3.分析网页结构,使用网页交互工具,我们可以快速发现每个网页有20个文章,也就是20个URL,id=中存在文章的列表标签下方的“存档”,然后像剥洋葱一样得到我们想要的URL链接。

  4、点击下拉三角形,不难发现文章详情页的链接并没有隐藏很深,如下图圆圈所示。

  5.根据标签,我们可以根据图片进行搜索,加上选择器工具,获取URL就像在搜索一样东西。在cmd中输入以下命令进入shell调试窗口,事半功倍。再次声明,这个URL是所有文章的URL,而不是某个文章的URL,否则调试半天也得不到结果。

  6、根据第四步的网页结构分析,我们在shell中编写CSS表达式并输出,如下图所示。其中a::attr(href)的用法很巧妙,也是提取标签信息的一个小技巧。建议朋友在提取网页信息的时候可以经常使用,非常方便。

  至此,第一页所有文章列表的url都获取到了。解压后的URL,如何交给Scrapy下载?下载完成后,如何调用我们自己定义的分析函数呢?

  技术文章:为了给公司的产品做 SEO,自己写了个网站蜘蛛日志分析工具

  因为公司是做信息管理系统软件的,为了增加客源,需要做官网的SEO,会遇到各种问题:

  1、首页TDK修改了,为什么搜索引擎没有更新?

  2. 增加了各种新页面,比如区域变电站模式,为什么不收录?

  ......

  

  当然,所有这些都没有固定的答案,但有一件事是肯定的:

  如果搜索引擎蜘蛛没有爬到相关页面,是不可能更新和收录的。所以做SEO,需要分析日志,了解蜘蛛的爬取规则。

  喜欢造轮子的程序员经常自己写,而不是花时间寻找工具。

  网站蜘蛛日志分析工具:

  

  标签:网站蜘蛛日志分析工具

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线