帮助您快速入门“蜂集采集器”的文章!
优采云 发布时间: 2021-06-10 04:56帮助您快速入门“蜂集采集器”的文章!
这是文章,帮助您快速上手“蜂集采集器”。如果你刚接触采集器,建议你仔细阅读这篇文章,它会很快帮助你采集器 很有帮助。
一.register
首先需要安装wp扩展和风基两个插件。安装完成后,您需要在“风极”中注册一个账号,才能开始使用。注册过程很简单,如下图:
点击注册链接,进入如下界面:
如果此页面的红字(验证码)无法加载,可能的原因是:您的主机禁用了allow_url_fopen,请启用后重试。如果allow_url_fopen仍然无效,请加群(175991304)求助!
二.如何开始采集
完成账号注册后,可以在任务列表中看到系统自带的采集任务,如下:
这个采集 任务是内置的,以帮助您更好地理解采集 过程。您现在看到的任务状态是“暂停”。当您点击“开始”时,任务将自动在后台运行。
现在您可以尝试将鼠标悬停在任务标题下,然后单击“执行一次”。
浏览器稍后会弹出“触发成功”的提示框,表示这个采集任务已经成功触发一次。如下图:
同时右侧的日志框会显示采集的状态,可以根据日志内容判断采集是否成功。
此时返回wordpress文章界面。如果你看到刚刚采集到达的文章,那么恭喜你获得“第一次采集”成就奖牌!
三.采集任务的组件
beeji插件中的“采集task”是一个由任务信息、采集模块和发布模块组成的可执行任务。
任务信息包括任务名称、第一次爬取的入口url、爬取后文章发布状态、任务状态等
采集模块收录了一系列匹配规则,告诉采集器应该在哪些组件中抓取哪些网页
发布模块告诉采集器如何发布采集到达的内容。
您可以在任务列表中的任务标题下找到编辑链接。点击编辑后,界面如下:
任务名称可根据心情填写。入口 url 是指为该任务第一次执行采集 的页面。每个任务都有一个条目。 采集器可以通过采集规则中设置的入口和列表规则找到你想要采集的网页。
四.开始自己写采集task
采集 网页就像认识朋友一样。当你有一个叫张三的朋友,那么你就可以通过张三认识他的朋友李四和王舞。认识了李四望舞,就可以通过李四望舞认识他们的朋友。通过这种关系,你理论上可以认识世界上的每一个人。
采集 网页也是如此。您可以通过条目 url 在此页面上找到其他链接。通过访问这些链接,您可以在这些链接所在的页面上找到其他链接。最后,可以找到整个网站 链接。
这是蜜蜂采集采集器采集链接的原理。
现在您可以尝试编写一个简单的采集 任务。这个任务采集的网站可以是文章站,新文章等,任务很简单,跟着教程来完成吧!
在添加任务之前,我们通常会写采集模块和发布模块。点击添加文章采集模块,进入模块编写界面。
首先填写规则名称,只要能识别出采集模块是采集采集哪种网站就可以选择任意名称如下图:
填写完毕后,点击“List Rules”,开始编写我们的List Rules。还记得我们上面说的采集网页和认识的朋友一样吗?如果我们愿意,我们甚至可以通过一个人认识全世界的人,但实际上,我们必须不愿意这样做。我们只会认识我们想认识的人。
这里的列表规则的作用和认识朋友一样,我们只是想要采集我们想要采集的内容。列表规则的作用是限制链接的匹配。我们找到的链接通过URL收录、URL不收录、标题收录、标题不收录、标题最大长度和标题最小长度的规则进行过滤。这就像当我们认识朋友时,我们通过年龄、性别和他们从事的工作等一系列规则过滤我们认识的人。
既然我们写的是最简单的采集模块,那么这里就不做限制了,所有的链接都是采集,所以这一步不用做任何改动。
接下来点击“内容规则”,我们将进入内容规则的书写区域。内容规则的目的是告诉采集器网页的哪些部分是采集。 采集器 内置了标题、内容、类别、标签、作者、缩略图等常用标签。它们对应于 wordpress 的 文章 组件。如无特殊需要,无需添加标签。
由于我们写的是最简单的采集模块,所以不会做太多改动。点击“内容”标签,只会得到文本,选择“是”(同上图)
我们只需要改变这个!
接下来,单击测试提取。 test fetch的目的是验证我们的规则采集的内容是否符合我们的要求。由于我们写的是最简单的采集模块,所以我们期望的是采集可以到达内容。
现在输入一个网站,这个网站可以是任何文章站点,我随便找了一个网站,输入主页的URL,如下图:
如您所见,我们已经抓取了很多链接。 采集器 会自动发现这些链接。我们拿一个文章的页面来测试一下,如下图:
如您所见,标题和正文可以是采集,并且找到了一些链接(回忆一下认识我们朋友的过程)。
点击Submit,我们写的最简单的采集模块就完成了!同时,在采集模块中还可以找到一项,
到目前为止,我们已经完成了采集模块。接下来,开始编写发布模块。编写发布模块就更简单了。
点击风集菜单栏中的发布模块,点击新建文章publish模块按钮,如下图:
点击添加文章发布模块后,进入发布模块编辑器:
模块名称可以任意填写,这些模块可以和很多任务共享。这里我写了“一个通用的文章release模块”。
接下来点击“规则”来编写我们的发布规则。记得我们之前采集的时候,有一个title标签,发布规则是wordpress中的fields和tags匹配!下图中,wordpress中的title对应采集的标签“title”。对应之后采集器就知道在哪里发标题了。
每个字段都有几个限制,例如必须收录、不能收录和最小长度。最小长度的默认限制为1,以防止发布空标题和文本。
这部分可以使用默认值,无需更改,我们直接保存即可。现在我们刚刚创建的发布模块就可以在发布模块中看到了。如下图:
现在我们可以创建一个简单的采集task,我们现在可以采集一个新闻网站。现在可以添加任务了,采集module和release module选择我们刚刚创建的模块,如下图:
填写完毕后,点击提交。现在我们有一个采集任务,如下图
当前任务状态为挂起。通常我们在创建任务时会选择暂停,因为任务采集的内容可能不符合我们的预期,所以需要对任务进行微调。为了避免创建后立即运行,采集一堆不符合要求的内容,最好的办法是选择一开始就暂停任务,手动触发。
还记得上面提到的手动触发采集吗?忘记的同学可以向上滚动查看。我们点击“执行一次”,在右侧的日志窗口中可以看到刚才的执行状态。我点了两次,看到下面两条日志,如下:
这样会提示发布条件未通过,下面提示为:
post_title 应该满足 {"include":"","exclude":"","min_len":"1"}
还记得我们刚才说的标题的最小长度吗?只有当title的最小长度为1时才会以文章的形式发布。现在采集是首页,所以没有文章的标题和内容,也不会以文章的形式发布。当然采集页面的主要目的是找到更多文章链接。
我们可以多点击几下就知道采集去了有内容的body页面,如下
这时候可以去wordpress的文章查看我们刚到的内容采集。这就是我们刚刚采集 到达的:
到目前为止,你应该学习如何创建采集模块,发布模块和任务,学习如何执行任务。
如果你想学习写更复杂的规则,建议你了解xpath和正则表达式。
好看(0)很好看(0)很好看(0)
欣赏
微信欣赏
支付宝鉴赏