搜索引擎如何抓取网页(网页发生变化对搜索引擎来说的确的变化预测算法需要保证几点)
优采云 发布时间: 2021-12-16 12:05搜索引擎如何抓取网页(网页发生变化对搜索引擎来说的确的变化预测算法需要保证几点)
网页变化确实是搜索引擎头疼的问题。最简单最直接的方法就是让爬虫重新下载,然后比较网页的指纹来判断网页的变化,但是当网页很大(下载很费时间)),以及当新鲜度要求网络搜索量很高,这种傻瓜式方法将停止。
但是还是有一些方法可以优化和改进:
(1)为了减少浏览器对web服务器的过多流量,http1.1设计了if-modified-since和E-tag功能,每次下载后可以记住last-modified-时间和E-tag内容,然后在接下来的爬取中,把这些值带到http协议上,如果内容没有变化,web服务器直接返回304页面不变的错误码,以便快速断定页面没有变化;该方法无法判断,跳转到指纹比对。
(2)从效率的角度来看,我们不能一视同仁地对待所有的网页,而应该重点检查;测试发现大部分网站网页的变化应该是有规律的,比如首页和论坛列表页面。发生变化,但旧的新闻内容页面可能几年都不会变化;只要找出经常变化的内容,顺便发现变化的内容,那么如何跟踪这些变化?您可以记录每个URL的阶段性变化历史(比如已经访问了几次,更改了几次),然后在下次抓取时进行预测,优先排序,频繁访问。
补充:
(1) if-modified-since / E-tag并不是所有的web服务器都支持,但是一旦支持,效果很好;
(2) 网页变化预测算法需要保证几点:
a) 在调度方面,要满足经常变化的人,保证不经常变化的人有机会被抓住;
b) 关于网页预测的重要性,可以考虑:URL的深度(越小越重要)、索引页的嫌疑(链接越多,列表页最有可能有新内容时更改)、历史变化等参数;
c) 历史预报信息需要根据时间进行调整,以应对各种场景,例如一段时间内变化频繁的网页(春节回家的主题页面,奥运期间的奥运板块页面等)
总结:它可以尽可能提高效率。网页变化预测算法公式设计的很好。随着时间的推移,你的搜索引擎会越来越准确地识别目标网站的变化信息,找到变化的时间也会越来越短。
上述网页预测借鉴了北大天网搜索引擎的网页变化预测理论;
实时搜索的原理暂时不清楚,请理解补充思路。