自动采集编写(蜂集采集器如何添加采集模块?(图)采集方法 )

优采云 发布时间: 2021-12-31 17:20

  自动采集编写(蜂集采集器如何添加采集模块?(图)采集方法

)

  BeeJi采集 是一个全自动的 wordpress采集 插件。如果你还没有下载,可以到beeJi采集下载页面下载。如果要采集,首先要添加采集模块。本文将介绍如何在风集采集器中添加采集模块!

  

  安装风记采集器后,后台会新增一个名为“飞记”的菜单。依次进入Bee Set->采集模块,点击“添加文章采集模块”按钮新建采集模块。

  需要设置一个完整的采集模块:基本信息、列表规则、内容规则。

  设置基本信息

  基本信息由规则名称和网页完整性检查填写,如下图

  

  规则的名称是必需的。这里我以采集腾讯新闻为例。规则名称中填写腾讯新闻采集。网页完整性检查是为了确保下载的网页是完整的,避免采集失败。一般不需要填写,如果发现很多网页在采集时没有采集获取到内容,那么就需要填写网页完整性检查或者一些标志性的文字在网页的末尾。简单的说,一般不填写,经常出现网页采集填写不完整

  编辑列表规则

  点击列表规则进入列表规则编辑栏。列表规则的作用是采集一些内容页面的链接供我们跟进采集。

  以腾讯新闻为例,我们使用chrome打开腾讯新闻首页。

  打开网页后,打开chrome开发者工具(windows按F12或ctrl+shift+i,MAC按cmd+option+i),点击开发者工具左上角的小箭头,然后放置鼠标如果要采集的链接,可以看到链接的区域和格式。

  

  我们找到了列表页中链接的特征,发现新闻链接都收录和html。我们可以在URL收录中写&&html,表示同时收录和html。如果我们只需要采集的入口页面地址,那么我们可以勾选停止列表获取,这样这个规则就不会对下一级网页生效。在大多数情况下,您不需要填写 URL 区域。一般来说,URL收录/不收录,标题收录/不收录足以覆盖大多数场景。如果场景一定要填URL区,那么这里的URL区就是一个正则表达式。

  最终效果如下图,请按图填写你的采集规则

  

  接下来可以测试链接获取是否正确。点击爬虫测试,然后填写文章测试地址,在这里填写,因为这是我们的入口页面,所以级别为0(注意级别从0开始,从0级页面为1,从1级页面得到的地址级为2,以此类推...).

  填写完成后,点击爬虫测试,应该可以看到下面得到的链接和标题,如下图。

  

  编辑内容规则

  我们最终都需要采集内容,所以内容规则与我们的内容采集有关。下图中,内容规则左侧为采集的字段名,默认覆盖wordpress文章的基本信息字段,title为文章title,content为文章内容,Category为文章类别,标签为文章标签,作者为文章作者。

  采集标题:title

  标题与h1匹配。系统已为您提供默认值。在大多数情况下,您不需要更改它,只需使用系统默认值即可。如下图

  

  如果网页的标题不是h1,您可以通过多种方式来匹配您需要的内容。风集支持三种方式:regular、xpath、fixed characters。

  采集正文:内容

  内容可以采用自动获取文本的方式,可以智能分析网页中的文本,自动获取。冯基采集器已经把这个选项默认设置为yes,如下图:

  

  一般情况下,大部分基于文本的网站都可以使用智能获取来抓取文本。如果只能抓取,也可以使用正则,xpath。

  如果此时使用的是regular或者xpath,那么Smart Get Text请选择No,否则以下规则不会生效

  同理,还需要设置category、tag、author,这里不再赘述。

  测试采集

  所有规则写好后,我们需要根据规则验证采集器是否可以正确采集,进入测试抓取标签,填写链接和页面级别,点击抓取测试来查看效果,如下图:

  

  如果您对采集器的使用有任何疑问,可以到风集的采集交流群(群号可在采集器的关于我们中找到)进行交流。

  您可能还喜欢以下内容文章

  

  Bee Set采集器,一个全自动的 wordpress采集插件

  imwprobot (bee set) 是一个 wordpress采集 插件。功能是什么? 1.全自动无人值守,支持定时采集2.可自动同步目标站更新3.AI自动关键词,自动汇总生成4.@ > 直接发布到 wordpress,无需额外的界面支持。 5. 正文图片和缩略图可以本地化 6. 每个任务 文章 图片可以设置独立的水印 7. 采集 到达的内容支持常规和 css 选择器替代品。 采集哪些站1.新闻资讯站2. 文章范文站< @3. BBS论坛4.@> 博客站5. 哪些资源站和下载站支持采集规则1.正则表达式2.XPath规则3.JQuery选择器(CSS选择器)代理支持1.HTTP代理2.Socks5代理哪些主机可以不受环境限制运行,虚拟主机可以运行蜜蜂设置功能

  

  蜜蜂合集采集器视频逐字草稿

  欢迎来到蜜蜂套装采集器,现在和大家分享蜜蜂套装采集器的教程。接下来就可以开始创建采集任务了。以lz13为例。添加任务名称并添加入口地址。入口页间隔不需要更改,文本捕获间隔不需要更改。选择采集模块,选择发布模块,选择草稿,选择要暂停的任务,然后我们会选择测试后自动执行。

  

  puretext 是一款纯文本 wordpress cms主题,可支持数百万文章

  经过几年的制作,纯文字的cms风格主题终于要和大家见面了。但是目前还没有一个主题可以支持海量的文章,所以我只能自己做一个。轻松支持百万文章无卡,无论是前台还是后台。

  

  Wordpress 小说主题 imwpnovels

  更强大的wordpress小说主题imwpnovels让创建小说网站更容易!小说阅读页面支持无限字体缩放、护眼模式、分页模式、静态缓存下刷新无闪烁,用户体验极佳。

  

  蜜蜂套装采集器快速入门

  这篇文章文章可以帮助您快速入门“蜜蜂采集器”。如果你刚接触采集器,我建议你仔细阅读这篇文章。对你快速上手很有帮助采集器。现在可以添加任务了,采集module和release module选择我们刚刚创建的module,如下图:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线