搜索引擎如何抓取网页(网页发生变化对搜索引擎来说的确的变化预测算法需要保证几点)

优采云发布时间: 2021-12-16 12:05

　　网页变化确实是搜索引擎头疼的问题。最简单最直接的方法就是让爬虫重新下载，然后比较网页的指纹来判断网页的变化，但是当网页很大（下载很费时间）），以及当新鲜度要求网络搜索量很高，这种傻瓜式方法将停止。

　　但是还是有一些方法可以优化和改进：

　　（1)为了减少浏览器对web服务器的过多流量，http1.1设计了if-modified-since和E-tag功能，每次下载后可以记住last-modified-时间和E-tag内容，然后在接下来的爬取中，把这些值带到http协议上，如果内容没有变化，web服务器直接返回304页面不变的错误码，以便快速断定页面没有变化；该方法无法判断，跳转到指纹比对。

　　（2)从效率的角度来看，我们不能一视同仁地对待所有的网页，而应该重点检查；测试发现大部分网站网页的变化应该是有规律的，比如首页和论坛列表页面。发生变化，但旧的新闻内容页面可能几年都不会变化；只要找出经常变化的内容，顺便发现变化的内容，那么如何跟踪这些变化？您可以记录每个URL的阶段性变化历史（比如已经访问了几次，更改了几次），然后在下次抓取时进行预测，优先排序，频繁访问。

　　补充：

　　（1) if-modified-since / E-tag并不是所有的web服务器都支持，但是一旦支持，效果很好；

　　（2) 网页变化预测算法需要保证几点：

　　a) 在调度方面，要满足经常变化的人，保证不经常变化的人有机会被抓住；

　　b) 关于网页预测的重要性，可以考虑：URL的深度（越小越重要）、索引页的嫌疑（链接越多，列表页最有可能有新内容时更改）、历史变化等参数；

　　c) 历史预报信息需要根据时间进行调整，以应对各种场景，例如一段时间内变化频繁的网页（春节回家的主题页面，奥运期间的奥运板块页面等）

　　总结：它可以尽可能提高效率。网页变化预测算法公式设计的很好。随着时间的推移，你的搜索引擎会越来越准确地识别目标网站的变化信息，找到变化的时间也会越来越短。

　　上述网页预测借鉴了北大天网搜索引擎的网页变化预测理论；

　　实时搜索的原理暂时不清楚，请理解补充思路。

0

2021-12-16

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(网页发生变化对搜索引擎来说的确的变化预测算法需要保证几点)

0 个评论

发起人