网站内容更新监控(我现在想到的方法只有每天自动把网站爬下来然后对比 )
优采云 发布时间: 2022-03-25 01:18网站内容更新监控(我现在想到的方法只有每天自动把网站爬下来然后对比
)
现在能想到的唯一办法就是每天自动爬下网站,然后对比新旧网站的HTML文件,判断是否更新回复内容: 1.第一时间我请求某个网页,在本地抓取,假设文件名是a.html。此时,文件系统具有文件的修改时间。
2 第二次访问网页。如果发现本地已经存在a.html,发送If-Modified-Since请求到服务器(/Protocols/rfc2616/rfc2616-sec14.html)。将a.html的修改时间写入请求中。
3 如果网页更新,服务器会返回200响应,然后重新爬取网页并更新本地文件。
4 如果网页没有更新,服务器会返回 304 响应。此时无需更新文件。这个问题已经做成成品了,大家可以看看:
注册成为用户后,您可以选择需要关注的网页,如果有更新,您会收到邮件提醒。还有一些高级设置没用过,可以看出来这是我的本科程序。.
当时做了一套服务,监控水果库、想去、花瓣市场、暖岛。
实现方法:
1. crontab 计划任务
2. 节点读取配置并调用phantomjs(内存浏览器)访问每个链接的共存图。
3. 所有图片均按日期和子文件夹命名,并使用Bootstrap进行对比展示。
如果有这样一套服务,我觉得是很好的。
不过,工资率可能是一个问题。也许使用git对抓取的网页进行版本控制,对吧?我歪了
Chrome 有一个使用 MD5 数字签名的 Page Monitor 插件
每次下载网页时,服务器返回的数据流ResponseStream首先放入内存缓冲区,然后
ResponseStream生成MD5数字签名S1,下次下载也会生成签名S2,比较S2和S1,如果相同则页面不
保持最新,否则网页将是最新的。可以使用网站信息监控工具,非常适合你的需求