自动采集数据(监控网站可以设置不同的监控频率吗?-八维教育)
优采云 发布时间: 2021-08-28 15:05自动采集数据(监控网站可以设置不同的监控频率吗?-八维教育)
如果您需要监控采集bidding和采购信息;或需要关注采集金融新闻;或需要监控采集培训招生内容;或需要监控采集众情内容。请继续往下看。目标是及时发现网站的更新内容,并在很短的时间内自动完成采集的数据。
由于每个网站内容格式不同,需要有针对性的定制数据采集方案。
1、实时监控更新和采集content原理:首先在监控主机上运行网站资讯管理软件,添加需要监控的网址,主要监控网站homepage或者栏目列表页。当发现更新时,更新后的新闻标题和链接将立即发送到采集host。 采集主机收到新闻链接后,会自动用木头浏览器打开网页,采集新闻标题和正文内容,然后保存到数据库或导出Excel文件,或填写表格并提交给其他系统。其中,监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口实现数据传输。
2、首先在监控主机上部署网站信息监控软件,添加需要监控的网址,可以选择监控网站首页或栏目页。只要可以直接监控超链接列表格式的网页,其他特殊格式的页面需要添加相应的监控程序。每个监控网站可以设置不同的监控频率,对于实时性要求高的网站可以设置高频监控。多个 URL 和独立线程以各自的频率同时被监控。您还可以通过关键词 过滤无效内容。具体参数设置请参考软件手册和案例教程。
3、在监控告警选项卡中勾选“发送链接到外网接口”,并设置接收端的ip地址和端口号,这里是采集host 127.@的ip地址0.@0.1,*敏*感*词*8888端口,*敏*感*词*网站更新时,会发送更新的内容和链接。
4、在采集主机上打开一个木制浏览器,选择“自动控制”菜单,打开“外部界面”。在弹出的对外接口窗口中,设置*敏*感*词*端口号为8888,设置为接收到数据时执行指定的自控工程文件。如果同时接收到多条数据,软件还可以按照设定的时间间隔依次处理每条数据。勾选“程序启动时自动开始*敏*感*词*”,这样只要启动浏览器就可以在不打开外部界面窗口的情况下接收数据。
5、打开浏览器的项目管理器,创建一个自动控制项目。首先新建一个打开网页的步骤,在URL输入控件中点击鼠标右键,选择外部变量@link,它是从监控主机接收到的数据中的链接参数。执行项目时会自动打开此内容 URL。
6、 创建一个元素监控步骤来监控内容页面的标题。通过title内容可以判断该内容来自哪个网站,然后跳转执行对应的数据采集步骤。这相当于编程中的多个条件语句。其中,选择跳转步骤需要先完成本文第7步,然后返回修改。
7、 创建一个信息抓取步骤,从网页上抓取标题和正文内容。会以变量的形式保存在软件中。创建每个网站数据捕获步骤并以相同的方式捕获内容参数。在这里,您还可以增加对信息内容的分析和过滤,确定不必要的无关内容,终止采集并保存。
8、如果要将采集的内容保存到数据库中,可以新建“执行SQL”步骤,设置数据库连接参数,支持mssql、mysql、oracle、sqlite等数据库。输入insert拼接sql语句,通过鼠标右键菜单将title和body变量插入到sql语句中。项目执行时,替换变量,内容直接保存到数据库中。
9、如何将采集的数据保存到Excel电子表格文件,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择需要保存的变量,这里选择标题和文字。
10、如果需要添加采集的内容,则填写表单添加到其他系统,新建页面打开步骤,添加本系统的URL(此处省略登录step),打开系统添加数据表单。
11、创建填写内容的步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框,点击鼠标右键选择需要输入的变量。
12、 填写完表单后,再添加一个点击提交按钮的步骤,这样采集到达的内容就会被添加到新系统中。
从监控数据更新到采集数据,保存到数据库或添加到其他系统,整个过程可以在很短的时间内自动快速完成,无需值守。并且可以把监控和采集软件放在后台运行,不影响电脑正常使用做其他任务。