网站内容更新监控(我现在想到的方法只有每天自动把网站爬下来然后对比 )

优采云 发布时间: 2022-03-25 01:18

  网站内容更新监控(我现在想到的方法只有每天自动把网站爬下来然后对比

)

  现在能想到的唯一办法就是每天自动爬下网站,然后对比新旧网站的HTML文件,判断是否更新回复内容: 1.第一时间我请求某个网页,在本地抓取,假设文件名是a.html。此时,文件系统具有文件的修改时间。

  2 第二次访问网页。如果发现本地已经存在a.html,发送If-Modified-Since请求到服务器(/Protocols/rfc2616/rfc2616-sec14.html)。将a.html的修改时间写入请求中。

  3 如果网页更新,服务器会返回200响应,然后重新爬取网页并更新本地文件。

  4 如果网页没有更新,服务器会返回 304 响应。此时无需更新文件。这个问题已经做成成品了,大家可以看看:

  注册成为用户后,您可以选择需要关注的网页,如果有更新,您会收到邮件提醒。还有一些高级设置没用过,可以看出来这是我的本科程序。.

  当时做了一套服务,监控水果库、想去、花瓣市场、暖岛。

  实现方法:

  1. crontab 计划任务

  2. 节点读取配置并调用phantomjs(内存浏览器)访问每个链接的共存图。

  3. 所有图片均按日期和子文件夹命名,并使用Bootstrap进行对比展示。

  如果有这样一套服务,我觉得是很好的。

  不过,工资率可能是一个问题。也许使用git对抓取的网页进行版本控制,对吧?我歪了

  Chrome 有一个使用 MD5 数字签名的 Page Monitor 插件

  每次下载网页时,服务器返回的数据流ResponseStream首先放入内存缓冲区,然后

  ResponseStream生成MD5数字签名S1,下次下载也会生成签名S2,比较S2和S1,如果相同则页面不

  保持最新,否则网页将是最新的。可以使用网站信息监控工具,非常适合你的需求

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线