我现在想到的方法只有每天自动把网站爬下来然后对比
优采云 发布时间: 2021-06-29 02:41
我现在想到的方法只有每天自动把网站爬下来然后对比
我现在想到的方法只是每天自动爬取网站,对比新旧网站的HTML文件,判断是否有更新。回复内容: 1 先请求某个网页,在本地抓取。假设文件名是a.html。这时候文件系统就有了文件修改时间。
2 第二次访问网页时,如果在本地找到a.html,则向服务器发送If-Modified-Since请求(/Protocols/rfc2616/rfc2616-sec14.html)。在请求中写入a.html的修改时间。
3 如果网页有更新,服务器会返回200响应,然后重新抓取网页并更新本地文件。
4 如果网页没有更新,服务器会返回 304 响应。此时不需要更新文件。这个问题已经做成产品了,可以看看:
注册用户后,您可以选择需要关注的网页,有更新会收到邮件提醒。还有一些高级设置,以前没用过,大家可以看看这是我本科的设置。 .
当时我们做了一套服务,监控果库、想去、花市、暖道。
如何实施:
1. crontab 定时任务
2.节点读取配置并调用phantomjs(内存浏览器)访问各个链接并保存图片。
3.所有图片以日期和文件夹命名,使用Bootstrap进行对比展示。
如果有这样一套服务,我觉得很好。
但付款率可能是一个问题。也许您可以使用 git 对已关闭的网页进行版本控制,对吗?我把地板弄歪了
Chrome 有一个使用 MD5 数字签名的 Page Monitor 插件
每次下载网页时,先把服务器返回的ResponseStream放入内存缓冲区,然后再对
ResponseStream生成MD5数字签名S1,下次下载也生成签名S2,比较S2和S1,如果相同则页面不
关注新的,否则网页会更新。您可以使用网站news 监控工具,非常符合您的要求