搜索引擎如何抓取网页(搜索引擎好的搜集策略是优先搜集重要的网页，他们并不是平行的抓取)

优采云发布时间: 2022-01-28 05:14

　　面对海量的网页，搜索引擎不会并行抓取每个网页，因为无论搜索引擎数据库如何扩展，都跟不上网页的增长速度。搜索引擎会优先抓取最重要的网页。保存数据库一方面对普通用户也有帮助，因为对于用户来说，他们不需要大量的结果，只需要最重要的结果。因此，一个好的采集策略是先采集重要的网页，这样最重要的网页才能在最短的时间内被抓取到。

　　2)某个网页的父网页被多次链接或被重要网页链接。比如一个网页是网站的内页，但是它的首页被链接了很多次，而且首页也被链接了，如果找到这个页面，说明这个页面也比较重要；

　　1) 一个网页被其他网页链接的特点，如果链接频繁或者被重要网页链接，就是非常重要的网页；

　　那么搜索引擎如何首先抓取最重要的页面呢？

　　通过分析大量网页的特征，搜索引擎认为重要的网页具有以下基本特征，虽然不一定完全正确，但大多数时候是正确的：

　　3)网页内容被转载广泛传播。

　　问题就出现在这里。当搜索引擎开始抓取网页时，可能不知道该网页是链接还是转载。也就是说，一开始，他无法知道前三项的特点。，这些因素只有在获得网页或几乎任何网页链接结构后才能知道。那么如何解决这个问题呢？即特征4和特征5在爬取的时刻就可以知道，只有特征4才能在不知道网页内容的情况下（在网页爬取之前）判断一个URL是否符合网页的内容。“重要”的标准，网页URL目录深度的计算就是对字符串的处理。统计结果表明，一般 URL 的长度小于 256 个字符，使得 URL 目录深度的判断更容易实现。

　　4) 网页的目录深度较小，便于用户浏览。“URL目录深度”这里定义为：网页URL除域名部分外的目录级别，即如果URL为，则目录深度为0；如果是，则目录深度为 1，依此类推。需要注意的是，URL目录深度小的网页并不总是重要的，目录深度大的网页也并非都是不重要的。一些学术论文的网页网址具有较长的目录深度。大多数重要度高的网页都会同时具备以上四个特征。

　　5)先采集网站首页，给首页分配高权重。网站的数量远小于网页的数量，重要的网页必须从这些网站主页链接，所以采集工作应优先获取尽可能多的网站@ > 主页尽可能。

　　但是，特征 4 和 5 有局限性，因为链接的深度并不能完全表明页面的重要性。那么如何解决这个问题呢？搜索引擎采取以下措施：

　　1) URL 权重设置：根据 URL 的目录深度确定。权重随着深度的减少而减少，最小权重为零。

　　2) 将 URL 初始权重设置为固定值。

　　3) 如果字符“/”、“?”或“&”在 URL 中出现一次，则权重减少一个值，并且

　　如果“search”、“proxy”或“gate”执行一次，权重减少一个值；最多减少到零。（包括”？”，

　　带有“&”的URL是参数形式，需要被请求方服务才能获取网页，而不是搜索引擎系统关注的静态网页，因此权重相应降低。收录“search”、“proxy”或“gate”，表示该网页最有可能是搜索引擎检索到的结果页面，即代理页面，因此应降低权重）。

　　4) 选择未访问 URL 的策略。因为权重值小并不一定代表不重要，有必要

　　有机会采集权重较小的未访问 URL。选择未访问URL的策略可以采用轮询的方式，根据权重选择一个，随机选择一个，或者随机选择N次。

　　当搜索引擎爬取大量网页时，就进入了解读网页前三个特征的阶段，然后通过大量的算法判断网页的质量，然后给出一个相对的排行。

　　本文由 51 荷叶茶站经理原创提供

　　360 用自己的产品击败了自己的 360 搜索

　　瀛海卫起起落落：为大众打开互联网之门

　　婚恋网遇酒食成骗子温床网站是罪魁祸首

　　新浪微博携手国政通推出V用户身份验证服务

　　谷歌正式发布云音乐服务：仅限美国

　　IE“黑八”漏洞被360*敏*感*词*再次获微软感谢

　　谈谈如何从SEO的角度来评估一个网站的价值

　　农夫夫妇在寻找儿子16年后被拒绝

　　谷歌升级搜索结果页面：高亮知识图谱

　　单宁和红酒

0

2022-01-28

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎好的搜集策略是优先搜集重要的网页，他们并不是平行的抓取)

0 个评论

发起人