文章定时自动采集(2.Socks5代理哪些主机可以运行没有环境限制,虚拟主机都可以)

优采云 发布时间: 2021-08-29 20:05

  文章定时自动采集(2.Socks5代理哪些主机可以运行没有环境限制,虚拟主机都可以)

  2. Socks5 代理

  哪些主机可以运行

  没有环境限制,所有虚拟主机都可以运行。

  风集功能介绍及使用

  如果不想看太多介绍,可以直接点击右侧导航栏中的“下载安装”直接定位到下载安装区或者滑动到底部进行下载。

  

  任务页面

  功能模块展示了蜜蜂采集的所有功能,是蜜蜂采集的主入口。

  任务列表区域显示所有任务,包括正在运行和暂停的任务。

  任务编辑区显示任务的修改和删除,任务正在等待任务下的采集文章等操作。

  任务状态区显示任务的状态。任务通常具有三种状态:暂停、运行和等待被调度运行。在等待调度时,它会显示任务将开始运行多长时间。

  日志区显示当前采集日志,可以快速查看当前任务运行状态,方便观察任务进度。

  1.采集module

  采集 模块的职责是将 Web 内容组织成结构化数据。网页上的数据是一段文字,里面的数据不能直接发布到wordpress。您需要提取标题、正文、分类、图片等信息发布到我们的wordpress。没错,采集模块所做的就是按照规则提取数据!

  

  采集Module 基本信息页面

  四步导航区显示了编写规则所需的四步:

  填写基本信息,即给规则起个名字。编写列表规则,即提取列表页面的文章url地址。编写内容规则,即提取内容页面的标题、内容、分类等数据。测试爬取,可以测试一下写的规则是否正确,如果正确,可以保存,写一个规则。

  

  采集模块列表规则页面

  

  采集Module 内容规则页面

  采集模块支持一些预设的过滤器来过滤文章中不需要的内容,比如链接(包括文本链接),比如列表,比如一些风格不好的html代码,以及一些干扰文本,这些都可以'不能直接在本地完成,需要在服务器端执行。

  发布模块

  发布模块负责通过一定的规则将采集的内容转换成符合你当前wordpress支持的字段。

  

  任务模块

  任务模块是最小的执行单元。通过添加任务模块,一个新的采集任务就完成了!

  

  下载并安装

  采集器 取决于 wp 扩展 (imwpf) 和蜜蜂集 (imwprobot)。注意:您必须先安装并启用 imwpf,然后才能安装 Bee Set 采集器! (重要的东西要加粗加红)

  第一步:下载wp扩展,通过wp后台安装并启用。

  第2步:下载bee set采集器,通过wp后台安装并启用。

  点击下载最新版wp扩展插件

  点击下载Bee 采集采集器最新版本

  使用教程

  教程导航:

  视频教程:

  附录

  imwpf 框架介绍

  好看(0)很好看(0)很好看(0)

  欣赏

  

  微信欣赏

  

  支付宝鉴赏

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线