内容采集器(数据源所有权归属原网站及所有者严禁利用webscraper进行数据采集)
优采云 发布时间: 2022-01-19 00:17内容采集器(数据源所有权归属原网站及所有者严禁利用webscraper进行数据采集)
这个文章是为了学习和交流。数据源的所有权属于原网站和所有者。严禁利用本文中提到的流程和数据牟利。
“打钉子的方法有很多,有时候我最熟悉的锤子反而会打我”
背景
最近接到一个求助,是采集一个网站,传统的“列表+内容”页面模式,用php或者采集器总会出现各种莫名其妙的问题,基本上都是经过这一步,我将使用“node+puppteer”来做,并使用自动化测试工具来模拟操作。虽然说是万能锤,但是制作这个锤子的流程和技术复杂度还是存在的,所以在转向之前一直在思考没有方向可以尝试——浏览器插件,基本原理和思路是与自动化工具基本相同,但感觉更优雅的是让目标逻辑更适合浏览器。
查资料的时候找到了Web Scraper,参考文档和教程,应用到目标网站采集,最终得到数据。如果熟悉整个操作过程,可以快速设置相应的规则来执行采集,现在记录下这个过程。
过程
1. 安装网络爬虫
有科学上网功的可以登录chorme网店直接搜索安装
或百度搜索“网络刮刀离线安装包”获取相关支持,离线安装过程不再赘述。
2. 分析目标站
可以看出,这是一种典型的列表+内容的展示方式。现在您需要 采集 向下列表和内容页面。传统的采集思路是用程序把整个列表页面拉回来,然后解析超链接跳转,然后得到内容页面。
现在让我们看看如何使用网络爬虫获取数据采集。
3. 设置规则
因为采集工具是通用的,至于如何采集和采集那些数据,用户需要根据实际情况进行配置。首先,让我们了解如何打开网络爬虫和基本页面。
① 打开工具
在目标页面打开开发者工具(F11或右键-勾选),可以看到工具栏的末尾有一个同名的标签,点击标签进入工具页面
②新建采集任务
采集在需要创建Sitemap之前,可以理解为一个任务,选择Create new sitemap - Create Sitemap
站点地图名称是任务名称,您可以根据需要创建它。
起始 URL 是您的 采集 页面。如果是列表+内容模式,建议填写列表页。
然后Create Sitemap,一个基本的任务就建立了。
③ 创建列表页规则
单击添加新选择器以创建一个选择器来告诉插件应该选择哪个节点。对于在这个列表页面上也有信息的页面,我们将每条信息作为一个块,块收录各种属性信息。建立方法如下:
需要勾选Multiple选项,可以理解为需要循环获取。
添加后,我们应该在信息块中标记内容。具体操作方法同上,但要选择信息的父选择器为刚刚创建的信息块节点。
其他节点的数据操作一致,记得选择父节点。
④ 检查既定规则