网站内容更新监控(我现在想到的方法只有每天自动把网站爬下来然后对比)
优采云 发布时间: 2021-12-18 19:04网站内容更新监控(我现在想到的方法只有每天自动把网站爬下来然后对比)
我现在想到的方法只是每天自动爬下网站,对比新旧网站的HTML文件,判断是否有回复内容的更新: 1 请求某个第一次打开网页并在本地抓取它。假设文件名是a.html。这时候文件系统就有了文件修改时间。
2 如果第二次访问该网页,如果发现本地已经存在a.html,则向服务器发送If-Modified-Since请求(/Protocols/rfc2616/rfc2616-sec14.html)。在请求中写入a.html的修改时间。
3 如果网页有更新,服务器会返回200响应,然后重新抓取网页并更新本地文件。
4 如果网页没有更新,服务器会返回304响应。此时不需要更新文件。这个问题已经做成产品了,大家可以看看:
注册为用户后,您可以选择需要关注的网页,如有更新您会收到邮件提醒。还有一些高级设置,以前没用过,大家可以看看这是我本科的设置。.
当时我们做了一套服务监控果库,想去,花市,暖道。
实现方法:
1. crontab 定时任务
2. 节点读取配置并调用phantomjs(内存浏览器)访问每个链接并保存图像。
3. 所有图片均以日期和文件夹命名,使用Bootstrap进行对比展示。
如果有这样一套服务,我觉得就很好了。
但工资率可能是一个问题。也许你可以用git对已经下拉的网页做版本控制?我歪了
Chrome 有一个使用 MD5 数字签名的 Page Monitor 插件
每次下载网页时,先将服务器返回的ResponseStream放入内存缓冲区,然后
ResponseStream生成MD5数字签名S1,下次下载也生成签名S2,比较S2和S1,如果相同则页面不
保持最新,否则网页将保持最新。您可以使用网站信息监控工具,非常符合您的要求