关键词文章采集器(蜂集采集器完整的采集需要采集模块、发布模块和任务组成 )
优采云 发布时间: 2022-02-11 00:04关键词文章采集器(蜂集采集器完整的采集需要采集模块、发布模块和任务组成
)
欢迎来到蜜蜂采集采集器,现在我将分享如何使用蜜蜂采集采集器。
一个完整的 采集 需要 采集 模块,发布模块和任务。首先,我们添加一个 采集 模块。
Beeji 安装时带有一个通用网页 采集 模块。新手可以从修改常用网页采集模块入手。
这里的基本信息有规则名称,默认不需要修改。
接下来就是列表规则,列表规则就是我们得到文章列表的规则,这里我们以lz13为例,我们采集里面的所有文章 ,
打开目标采集站,打开debug模式,windows按f12,mac按command+option+i,可以看到里面的link rule以html结尾,那我在里面写.html URL收录,为了不把采集器指向外站的地址,我们还可以加个限制,让采集的链接中收录域名,可以通过以下组合来实现二和符号。
接下来我们添加内容规则。
Beeji 采集器内置wordpress主字段,以文章标题开头,打开目标采集站点,打开文章页面,打开调试模式,即可看它的标题是h2,但是需要确认这个页面是否只有一个h2,打开源码,搜索h2,可以发现这个页面有多个h2,搜索h1,发现只有一个h1,这正是我们需要的标题,所以header部分不需要修改。
现在匹配这部分文本。Beeji 可以自动适配大部分文字内容。如果不是特别难匹配的页面,可以在这里选择智能采集。
接下来是分类页面,或者打开目标站点的调试模式,可以看到分类规则是分类后的字符,规则可以这样写。
一切完成后,你可以找到一个页面来测试它。
复制主页链接,看看抓取的链接是什么。
再次复制正文链接,查看爬取的内容是否符合预期。可以看出基本符合预期,那么就可以省了。
接下来,我们来介绍发布模块。发布模块是将 采集 的字段转换为 wordpress 的发布字段的步骤。Beeji采集器内置默认发布规则,在发布普通文章时可以直接使用该默认规则,无需修改。
接下来可以开始创建采集任务,或者以lz13为例,添加任务名称,添加入口地址,入口页面间隔不可更改,文本抓取间隔不可更改,选择 采集 模块,选择发布模块,选择草稿,选择要暂停的任务,然后我们将测试它,然后选择自动执行。
回到任务列表,点击手动执行,可以看到任务已经在执行,如果我们不离开这个页面,任务会继续执行。现在我们可以去查看采集收到的文章,可以看到文章已经入库了。现在没关系,我们可以点击开始,任务将在后台执行。
输入文章,可以看到任务已经在后台自动运行了。
您可能还喜欢以下 文章
Beeji采集器,一个全自动的wordpress采集插件
imwprobot 是一个 wordpress采集 插件。有什么功能1.全自动无人值守,支持定时采集2.可以自动同步目标站的更新3.AI自动关键词,自动汇总生成4.直接发布到wordpress,无需额外接口支持5.文字图片和缩略图都可以本地化6.每个任务中文章图片可以设置独立水印7. 采集支持正则和css选择器替换的内容可以是采集哪些站1.新闻资讯站2.文章模型文章站3. BBS 论坛4. 博客站点5. 什么采集规则1. 正则表达式2.
puretext 一个wordpress cms 主题,可以支持数百万个文章 纯文本类型
经过几年的制作,一个纯文本的 cms 风格的主题终于来了。但是到目前为止,没有一个主题可以支持大量的文章,所以我只能自己制作一个。轻松支持百万文章不卡顿,无论是前台还是后台。