市面上使用最简单的采集器之一!(蜂集)(组图)
优采云 发布时间: 2021-08-25 05:01市面上使用最简单的采集器之一!(蜂集)(组图)
imwprobot (bee set) 是一个 wordpress采集 插件。模块化设计,插件非常好用,丰富网站内容的必备插件!
简介
imwprobot (bee set) 是 imwpweb 开发的全自动智能采集 插件。与其他采集工具不同,imwprobot本身已经完成了大部分工作,你只需要找到一个或多个采集站点,添加一个url即可启动采集。
imwprobot 无需任何规则即可识别网站 的大部分标题和文本。可以说是市面上最简单的采集器之一!当然,你可以添加你的规则,让采集器按照你的指示采集你想要什么。
丰集优势后台工作全自动,无需人工。智能正文提取算法可以自动识别大多数网页的正文内容。能够过滤文章中的链接、图片、列表、表格、表单。修复网页中乱七八糟的html,采集的内容必须是正确的html。图片本地化,将网页中的图片下载到本地。分类是自动创建的,无需手动操作。工作流程
bee set的工作流程如下:
添加采集module -> 添加发布模块 -> 添加任务 -> 自动执行
1.采集module
采集 模块负责指定来自目标站点的某些内容,采集 向下。通俗的说,你要什么采集target网站上面!
采集模块部分截图如下
采集模块支持一些预设的过滤器来过滤文章中不需要的内容,比如链接(包括文本链接),比如列表,比如一些风格不好的html代码,以及一些干扰文本,这些都可以'不能直接在本地完成,需要在服务器端执行。
发布模块
发布模块负责通过一定的规则将采集的内容转换成满足你当前wordpress支持的字段。
任务模块
任务模块是最小的执行单元。通过添加任务模块,一个新的采集任务就完成了!
下载地址
在安装 Bee 采集 之前,必须先安装 imwpf 插件。该插件提供了一个基本的运行环境。您可以查看:imwpf 框架简介。下载链接:底部获取
安装imwpf后即可安装bee set采集插件,下载链接:底部获取
使用教程
蜜蜂集采集器的教程可以去: