免规则采集器列表算法(如何采集招投标类网站的数据?示例网站推荐!!)
优采云 发布时间: 2022-02-06 09:15免规则采集器列表算法(如何采集招投标类网站的数据?示例网站推荐!!)
网上公布招标信息的网站很多,招标公告中的信息很有价值。比如你想知道一个公司的资质,你想知道一个项目的投资资金,你想知道招标公司之间的关系,这些都可以从招标信息中分析出来。数据是分析的基础,只能获取大量的数据。,分析更准确,更有说服力。今天教大家采集出价和出价网站数据。
示例网站:
一.首先打开ForeSpider数据采集软件,点击“采集频道列表”中的“+”号新建频道。然后将准备好的采集网站的URL粘贴到采集的地址中。
通道配置
二.频道入口地址配置好后,点击“模板配置”,在右侧模板中新建一个链接提取,两个链接提取,分别命名为“翻页”和“项目提取”。这两个链接提取分别提取页面中的工程项和翻页链接。
添加链接提取
三.点击采集预览,发现采集的预览中没有我要的project项目的链接,但是有翻页的链接,这时需要编写脚本来提取项目链接。翻页链接提取可以通过可视化操作来完成。之前提到过如何编写链接提取脚本,这里就不介绍了。
链接提取教程:
链接提取脚本
四.预览发现每个翻页链接地址都收录“page=”这个词,然后我把这个词放到“翻页”的地址过滤器中,过滤规则选择为“include”。
翻页地址过滤
链接提取配置完成后,可以点击采集预览效果。如果配置有问题,可以及时更正。
预览效果
五。可以看到预览效果没有问题,接下来继续配置下一层模板。下一层是招标公告页,即资料页。先创建表单域,在表单名称处选择创建的表单。
选择表格
六.数据页中有些字段可以用可视化操作,有些需要脚本,所以我把需要写的部分写在了字段下面。对于字段处理,选择脚本处理。
字段下的脚本处理
八.所有字段配置完成后,可以点击采集预览查看效果。如果效果不好,可以改正。
预览效果
竞价类网站实时更新,ForeSpider数据采集软件有增量采集功能,可以采集新增数据,随时监控要时间很久了网站添加数据。
虽然教程看起来很简单,但最重要的是动手实践。多多练习可以更熟练地使用软件采集你想要的数据。