我现在想到的方法只有每天自动把网站爬下来然后对比

优采云 发布时间: 2021-06-29 02:41

  

我现在想到的方法只有每天自动把网站爬下来然后对比

  

  我现在想到的方法只是每天自动爬取网站,对比新旧网站的HTML文件,判断是否有更新。回复内容: 1 先请求某个网页,在本地抓取。假设文件名是a.html。这时候文件系统就有了文件修改时间。

  2 第二次访问网页时,如果在本地找到a.html,则向服务器发送If-Modified-Since请求(/Protocols/rfc2616/rfc2616-sec14.html)。在请求中写入a.html的修改时间。

  3 如果网页有更新,服务器会返回200响应,然后重新抓取网页并更新本地文件。

  4 如果网页没有更新,服务器会返回 304 响应。此时不需要更新文件。这个问题已经做成产品了,可以看看:

  注册用户后,您可以选择需要关注的网页,有更新会收到邮件提醒。还有一些高级设置,以前没用过,大家可以看看这是我本科的设置。 .

  当时我们做了一套服务,监控果库、想去、花市、暖道。

  如何实施:

  1. crontab 定时任务

  2.节点读取配置并调用phantomjs(内存浏览器)访问各个链接并保存图片。

  3.所有图片以日期和文件夹命名,使用Bootstrap进行对比展示。

  如果有这样一套服务,我觉得很好。

  但付款率可能是一个问题。也许您可以使用 git 对已关闭的网页进行版本控制,对吗?我把地板弄歪了

  Chrome 有一个使用 MD5 数字签名的 Page Monitor 插件

  每次下载网页时,先把服务器返回的ResponseStream放入内存缓冲区,然后再对

  ResponseStream生成MD5数字签名S1,下次下载也生成签名S2,比较S2和S1,如果相同则页面不

  关注新的,否则网页会更新。您可以使用网站news 监控工具,非常符合您的要求

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线