全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

内容采集器(数据源所有权归属原网站及所有者严禁利用webscraper进行数据采集)

优采云发布时间: 2022-01-19 00:17

　　内容采集器(数据源所有权归属原网站及所有者严禁利用webscraper进行数据采集)

　　这个文章是为了学习和交流。数据源的所有权属于原网站和所有者。严禁利用本文中提到的流程和数据牟利。

　　“打钉子的方法有很多，有时候我最熟悉的锤子反而会打我”

　　背景

　　最近接到一个求助，是采集一个网站，传统的“列表+内容”页面模式，用php或者采集器总会出现各种莫名其妙的问题，基本上都是经过这一步，我将使用“node+puppteer”来做，并使用自动化测试工具来模拟操作。虽然说是万能锤，但是制作这个锤子的流程和技术复杂度还是存在的，所以在转向之前一直在思考没有方向可以尝试——浏览器插件，基本原理和思路是与自动化工具基本相同，但感觉更优雅的是让目标逻辑更适合浏览器。

　　查资料的时候找到了Web Scraper，参考文档和教程，应用到目标网站采集，最终得到数据。如果熟悉整个操作过程，可以快速设置相应的规则来执行采集，现在记录下这个过程。

　　过程

　　1. 安装网络爬虫

　　有科学上网功的可以登录chorme网店直接搜索安装

　　

　　或百度搜索“网络刮刀离线安装包”获取相关支持，离线安装过程不再赘述。

　　2. 分析目标站

　　可以看出，这是一种典型的列表+内容的展示方式。现在您需要采集向下列表和内容页面。传统的采集思路是用程序把整个列表页面拉回来，然后解析超链接跳转，然后得到内容页面。

　　

　　

　　现在让我们看看如何使用网络爬虫获取数据采集。

　　3. 设置规则

　　因为采集工具是通用的，至于如何采集和采集那些数据，用户需要根据实际情况进行配置。首先，让我们了解如何打开网络爬虫和基本页面。

　　① 打开工具

　　在目标页面打开开发者工具（F11或右键-勾选），可以看到工具栏的末尾有一个同名的标签，点击标签进入工具页面

　　

　　②新建采集任务

　　采集在需要创建Sitemap之前，可以理解为一个任务，选择Create new sitemap - Create Sitemap

　　

　　站点地图名称是任务名称，您可以根据需要创建它。

　　起始 URL 是您的采集页面。如果是列表+内容模式，建议填写列表页。

　　然后Create Sitemap，一个基本的任务就建立了。

　　

　　

　　③ 创建列表页规则

　　单击添加新选择器以创建一个选择器来告诉插件应该选择哪个节点。对于在这个列表页面上也有信息的页面，我们将每条信息作为一个块，块收录各种属性信息。建立方法如下：

　　需要勾选Multiple选项，可以理解为需要循环获取。

　　

　　添加后，我们应该在信息块中标记内容。具体操作方法同上，但要选择信息的父选择器为刚刚创建的信息块节点。

　　

　　其他节点的数据操作一致，记得选择父节点。

　　④ 检查既定规则

0

2022-01-19

内容采集器

0 个评论

要回复文章请先登录或注册

视
频
教
程

官方客服QQ群

在
线
客
服