资讯内容采集系统(监控网站可以设置不同的监控频率吗?-八维教育)
优采云 发布时间: 2022-02-02 21:06资讯内容采集系统(监控网站可以设置不同的监控频率吗?-八维教育)
如果您需要监控采集招标采购信息;或者需要关注采集财经新闻;或需要监控采集招生招生内容;或者需要监控采集舆情内容。请继续阅读,目标是及时发现网站更新,在极短的时间内完成数据自动化采集。
由于每个网站内容格式不同,需要有针对性的自定义数据采集方案。
1、实时监控更新及采集内容原理:首先,在监控主机上运行网站信息监控软件,添加要监控的URL来监控网站主页或栏目列表页为主。发现更新后,立即向 采集 主持人发送更新的新闻标题和链接。采集主机收到新闻链接后,会自动用木头浏览器打开网页,采集新闻标题和正文内容,然后存入数据库或导出Excel文件,或填写表格并提交到其他系统。监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口传输数据。
2、首先在监控主机上部署网站信息监控软件,添加要监控的URL,选择监控网站首页或者栏目页面。只要可以直接监控超链接列表格式的网页,其他特殊格式的页面需要添加相应的监控方案。每个监控网站可以设置不同的监控频率,对实时性要求高的网站可以设置高频监控。以各自的频率同时监控多个独立于 URL 的线程。您还可以通过 关键词 过滤无效内容。具体参数设置请参考软件手册和案例教程。
3、在监控和告警选项卡中,勾选“发送链接到外网接口”,并设置接收方的ip地址和端口号,这里是采集主机的ip地址127.@ >0.0.1,*敏*感*词*8888端口。当*敏*感*词*到任何网站更新时,会发出更新的内容和链接。
4、在采集主机上打开wood浏览器,选择“自动控制”菜单,打开“外部接口”,在弹出的外部接口窗口中,设置*敏*感*词*端口号为8888 . 设置接收数据时执行的指定自动控制工程文件。如果同时接收到多条数据,软件还可以按照设定的时间间隔依次处理每条数据。勾选“程序启动时自动开始*敏*感*词*”,这样只要浏览器启动,就可以在不打开外部接口表单的情况下接收数据。
5、打开浏览器的项目管理器来创建一个自动化项目。首先新建一个步骤,打开一个网页,在输入URL的控件中右键,选择外部变量@link,即从监控主机接收到的数据中的链接参数。执行项目时会自动打开此内容 URL。
6、创建一个元素监控步骤来监控内容页面的标题。通过标题内容,可以解读出内容来自哪个网站,然后跳转执行对应的数据采集步骤。这相当于编程中的多条件语句。其中,选择跳转步骤需要先完成本文第7步,再返回修改。
7、创建信息抓取步骤,从网页抓取标题和正文内容。将以变量的形式保存在软件中。以相同的方式创建每个 网站 数据抓取步骤和抓取内容参数。在这里,还可以添加分析过滤信息内容,判断不必要的无关内容,终止采集并保存。
8、如果要将采集的内容保存到数据库,可以创建“执行SQL”步骤,设置数据库连接参数,支持mssql、mysql、oracle、sqlite等数据库. 输入插入拼接sql语句,通过右键菜单将title和body变量插入到sql语句中。项目执行时,变量被替换,内容直接保存到数据库中。
9、如何将采集的数据保存到Excel表格文件,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择要保存的文件变量,这里可以选择标题和文字。
10、如果需要添加采集的内容,填写表格添加到其他系统,新建步骤打开网页,添加本系统的URL(登录步骤此处省略),并打开向系统添加数据的表单。
11、创建填写内容的步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框并单击鼠标右键选择要输入的变量。
12、填写表格,添加点击提交按钮的步骤,这样采集的内容就添加到了新系统中。
从监控数据更新,到采集数据,保存到数据库或添加到其他系统,整个过程可以在无人值守的状态下,在极短的时间内自动快速完成。并且监控和采集软件可以放在后台运行,不影响电脑正常使用做其他工作。