免规则采集器列表算法(如何采集招投标类网站的数据?示例网站推荐!!)

优采云 发布时间: 2022-02-06 09:15

  免规则采集器列表算法(如何采集招投标类网站的数据?示例网站推荐!!)

  网上公布招标信息的网站很多,招标公告中的信息很有价值。比如你想知道一个公司的资质,你想知道一个项目的投资资金,你想知道招标公司之间的关系,这些都可以从招标信息中分析出来。数据是分析的基础,只能获取大量的数据。,分析更准确,更有说服力。今天教大家采集出价和出价网站数据。

  示例网站:

  一.首先打开ForeSpider数据采集软件,点击“采集频道列表”中的“+”号新建频道。然后将准备好的采集网站的URL粘贴到采集的地址中。

  

  通道配置

  二.频道入口地址配置好后,点击“模板配置”,在右侧模板中新建一个链接提取,两个链接提取,分别命名为“翻页”和“项目提取”。这两个链接提取分别提取页面中的工程项和翻页链接。

  

  添加链接提取

  三.点击采集预览,发现采集的预览中没有我要的project项目的链接,但是有翻页的链接,这时需要编写脚本来提取项目链接。翻页链接提取可以通过可视化操作来完成。之前提到过如何编写链接提取脚本,这里就不介绍了。

  链接提取教程:

  

  链接提取脚本

  四.预览发现每个翻页链接地址都收录“page=”这个词,然后我把这个词放到“翻页”的地址过滤器中,过滤规则选择为“include”。

  

  翻页地址过滤

  链接提取配置完成后,可以点击采集预览效果。如果配置有问题,可以及时更正。

  

  预览效果

  五。可以看到预览效果没有问题,接下来继续配置下一层模板。下一层是招标公告页,即资料页。先创建表单域,在表单名称处选择创建的表单。

  

  选择表格

  六.数据页中有些字段可以用可视化操作,有些需要脚本,所以我把需要写的部分写在了字段下面。对于字段处理,选择脚本处理。

  

  字段下的脚本处理

  八.所有字段配置完成后,可以点击采集预览查看效果。如果效果不好,可以改正。

  

  预览效果

  竞价类网站实时更新,ForeSpider数据采集软件有增量采集功能,可以采集新增数据,随时监控要时间很久了网站添加数据。

  虽然教程看起来很简单,但最重要的是动手实践。多多练习可以更熟练地使用软件采集你想要的数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线