搜索引擎如何抓取网页(如何建立索引3.搜索引擎如何对页面进行排名(组图))
优采云 发布时间: 2021-12-26 18:21搜索引擎如何抓取网页(如何建立索引3.搜索引擎如何对页面进行排名(组图))
搜索引擎通过使用称为蜘蛛的机器人抓取网络来工作。这些网络爬虫有效地跟踪页面之间的链接以查找要添加到搜索索引中的新内容。当您使用搜索引擎时,将从索引中提取相关结果并使用算法进行排名。
如果这听起来很复杂,那是因为它确实如此。但是,如果您想在搜索引擎中获得更高的排名以获得更多的网站流量,您需要对搜索引擎如何查找、索引和排名内容有一个基本的了解。
这是您将在本指南中学到的内容。
这是“第一章搜索引擎工作原理”章节
1. 搜索引擎基础
2. 搜索引擎如何建立索引
3. 搜索引擎如何对页面进行排名
4. 搜索引擎如何个性化搜索结果
第1章
搜索引擎基础
在我们进入技术内容之前,让我们首先确保我们了解搜索引擎实际上是什么,它们为什么存在,以及它们为什么重要。
什么是搜索引擎?
搜索引擎是查找与用户搜索查询相匹配的 Web 内容并对其进行排名的工具。
每个搜索引擎由两个主要部分组成:
搜索索引。网页信息的数字图书馆。搜索算法。一种对搜索索引中的匹配结果进行排名的计算机程序。
流行的搜索引擎包括 Google、Bing 和 DuckDuckGo。
搜索引擎的目的是什么?
每个搜索引擎都旨在为用户提供最佳和最相关的结果。这就是他们获得或保持市场份额的方式——至少在理论上是这样。
搜索引擎是怎么赚钱的?
搜索引擎有两种类型的搜索结果:
每次有人点击付费搜索结果时,广告商都会向搜索引擎付费。这称为按点击付费 (PPC) 广告。
这就是为什么市场份额很重要。更多的用户意味着更多的广告点击和更多的收入。
为什么要关心搜索引擎的工作原理?
了解搜索引擎如何查找、索引和排名内容将帮助您在相关和热门关键字的自然搜索结果中对您的网站进行排名。
如果您可以在这些查询中排名靠前,您的内容将获得更多点击次数和自然流量。
哪个是最受欢迎的搜索引擎?
谷歌。它拥有92%的市场份额。
谷歌是大多数 SEO 专业人士和网站所有者关心的搜索引擎,因为它有可能比任何其他搜索引擎发送更多的流量。
第2章
搜索引擎如何建立索引
大多数著名的搜索引擎,例如 Google 和 Bing,其搜索索引中都有数以万亿计的页面。因此,在我们讨论排名算法之前,让我们深入研究用于构建和维护 Web 索引的机制。
这是谷歌提供的基本流程:
让我们一步一步分解它:
关于 URL 抓取处理和呈现索引的旁注。
下面的过程专门适用于 Google,但它可能与 Bing 等其他网络搜索引擎非常相似。还有其他类型的搜索引擎,例如 Amazon、YouTube 和 Wikipedia,它们仅显示来自其网站的结果。
步骤 1. 网址
这一切都始于已知 URL 的列表。谷歌通过各种过程发现了这些,但最常见的三个是:
反向链接
谷歌已经拥有数万亿个网页的索引。如果有人从这些页面之一添加到您的页面之一的链接,他们可以从那里找到它。
您可以使用带有 Ahrefs 网站管理员工具的网络浏览器免费查看您网站的反向链接。
注册一个免费的 Ahrefs 网站管理员工具帐户,将您的域粘贴到站点浏览器中,然后转到反向链接报告。
我们的爬虫是仅次于 Google 的第二活跃爬虫,因此您应该在这里看到相当完整的反向链接视图。
从站点地图
站点地图列出了您网站上的所有重要页面。如果您将站点地图提交给 Google,可能会帮助他们更快地发现您的网站。
从 URL 提交
Google 还允许通过 Google Search Console 提交单独的 URL。
步骤 2. 爬行
爬行是一个被称为蜘蛛的计算机机器人(例如 Googlebot)访问和下载找到的页面的地方。
需要注意的是,Google 并不总是按照找到页面的顺序抓取页面,这一点很重要。
Google 会根据以下因素对网址进行排队以供抓取:
这很重要,因为这意味着搜索引擎可能会首先抓取您的某些页面并将其编入索引。如果您有一个大型网站,搜索引擎可能需要一段时间才能完全抓取它。
步骤3.处理
处理是谷歌从抓取的页面中理解和提取关键信息的地方。谷歌之外没有人知道这个过程的每一个细节,但我们理解的重要部分是提取链接和存储内容以进行索引。
谷歌必须渲染页面以完全处理它们,这是谷歌运行页面代码以了解它如何找到用户的地方。
换句话说,一些处理发生在渲染之前和之后——如图所示。
步骤 4. 索引
索引是将已抓取页面的已处理信息添加到称为搜索索引的大型数据库中。这本质上是一个收录
数万亿个网页的数字图书馆,Google 的搜索结果来自这些网页。
这是很重要的一点。当您在搜索引擎中键入查询时,您并不是直接在 Internet 上搜索匹配的结果。您正在搜索搜索引擎的网络索引。如果页面不在搜索索引中,搜索引擎用户将找不到它。这就是为什么让您的网站在 Google 和 Bing 等主要搜索引擎中编入索引如此重要的原因。
第3章
搜索引擎如何对页面进行排名
发现、抓取和索引内容只是难题的第一部分。当用户进行搜索时,搜索引擎也需要一种对匹配结果进行排名的方法。这是搜索引擎算法的工作。
每个搜索引擎都有一个独特的页面排名算法。但由于 Google 是迄今为止使用最广泛的搜索引擎(至少在西方世界),我们将在本指南的其余部分重点关注这一点。
众所周知,谷歌有200多个排名因素。
没有人知道所有这些排名因素是什么,但我们知道关键因素。
让我们讨论其中的一些。
反向链接
反向链接是谷歌最重要的排名因素之一。
Google 搜索质量高级策略师 Andrey Lipattsev 在 2016 年的一次在线网络研讨会上证实了这一点。当被问及两个最重要的排名因素时,他的回答很简单:内容和链接。
绝对地。我可以告诉你它们[前两个排名因素]是什么。它是内容。它是指向您网站的链接。
自 1997 年 Google 推出 PageRank 以来,链接一直是 Google 的重要排名因素。PageRank是根据指向网页的反向链接的数量和质量来判断网页价值的公式。
当我们分析超过 10 亿个页面时,我们发现链接到一个页面的网站数量与其从 Google 收到的自然流量之间存在明显的相关性。
然而,这并不是数量的全部,因为并非所有的反向链接都是平等的。一个拥有少量高质量反向链接的页面完全有可能超过一个拥有大量低质量反向链接的页面。
一个好的反向链接有六个关键属性。
让我们仔细看看可以说是最重要的两个:权威和相关性。
链接权限
来自权威页面和网站的反向链接通常对排名的影响最大。
你如何定义权威?在 SEO 的背景下,权威页面和网站是那些具有许多反向链接或“投票”的页面。
在 Ahrefs 中,我们有两个指标来衡量网站和页面的相对权威:
您可以在 Ahrefs 的站点浏览器中查看任何网站或网页的权限。
链接相关性
来自相关网站和网页的链接通常是最有价值的。
谷歌在对其页面上的有用页面进行排名的上下文中讨论相关性,以了解搜索的工作原理。
如果该主题上的其他知名网站链接到此页面,则表示该信息是高质量的。
如果您想知道为什么相关性很重要,请考虑现实世界中事物的运作方式。在寻找最好的意大利餐厅时,您可能会相信厨师朋友的推荐,而不是兽医朋友的推荐。但是,如果您正在寻找猫粮推荐,情况正好相反。
联系
Google 有多种方法可以确定页面的相关性。
在最基本的层面上,它会查找收录
与搜索查询相同的关键字的页面。
但相关性远远超出关键字匹配。
Google 还使用交互数据来评估搜索结果是否与查询相关。换句话说,搜索者认为该页面有用吗?
这也是为什么“苹果”的所有顶级成果都与科技公司有关,而不是果实的部分原因。谷歌从交互数据中知道,大多数搜索者正在寻找有关前者的信息,而不是后者。
然而,交互式数据远非谷歌这样做的唯一方式。
谷歌投资了许多技术来帮助理解人、地点和事物等实体之间的关系。知识图谱就是这些技术之一。它本质上是一个庞大的实体知识库以及它们之间的关系。
苹果(水果)和苹果(科技公司)是知识图中的实体。
Google 使用实体之间的关系来更好地了解页面相关性。说橙子和香蕉的“苹果”的匹配结果显然是在说水果。但那些谈论 iPhone、iPad 和 iOS 的人显然是在谈论科技公司。
部分归功于知识图谱,谷歌可以超越关键字匹配。
有时,您甚至可能会看到未提及在查询中似乎很重要的关键字的搜索结果。例如,要获取“apple paper app”的第二个结果,它不会在页面上的任何位置提及“apple”一词。
谷歌可以说这是一个相关的结果,部分是因为它在知识图谱中提到了 iPhone 和 iPad 等实体,这些实体无疑与苹果密切相关。
边注。
交互式数据和知识图并不是谷歌用来了解页面与搜索查询相关性的唯一技术。大部分工作是使用技术来完成,以了解查询本身背后的含义和意图,例如 BERT 和 RankBrain。谷歌有时甚至会在幕后重写查询以提供更相关的结果。
新鲜的
新鲜度是一个取决于查询的排名因素,这意味着它对于某些结果比其他结果更重要。
对于“amazon prime 上有什么新鲜事”这样的查询,新鲜度很重要,因为搜索者想了解最近添加的电影和电视节目。这可能是 Google 将新的或更新的搜索结果排名更高的原因。
对于“最好的耳机”这样的查询,新鲜度很重要,但不是那么重要。耳机技术发展很快,所以2015年的结果不会有太大用处,但2-3个月前发表的帖子还是有用的。
谷歌知道这一点并显示过去几个月更新或发布的结果。
一些查询结果的新鲜度大多无关紧要,例如“如何画领带”。几十年来,这个过程没有改变,所以搜索结果是昨天还是1998年都没有关系。谷歌知道这一点,对多年前发布的帖子的排名没有任何怀疑。
话题权威
谷歌希望对在该主题上有权威的网站的内容进行排名。这意味着 Google 可能会将网站视为针对某个主题而非另一个主题的查询的良好结果来源。
谷歌在他们的一项专利中谈到了这一点:
搜索系统是否认为该站点具有权威性通常取决于查询。[...] 搜索系统可以将CDC站点“”视为查询“CDC蚊子停止叮咬”的权威站点,但可能不会将同一站点视为查询“餐厅推荐”的权威站点。
尽管这只是 Google 申请的众多专利中的一项,但我们已经看到证据表明“主题权威”在许多查询的搜索结果中很重要。
看看“真空低温真空封口机”的效果就知道了。
在这里,我们看到了两个关于真空低温烹调法的小众网站,排名高于纽约时报。
虽然这里无疑还有其他因素在起作用,但“话题权威”似乎是这些网站排名靠前的原因之一。
这可能就是 Google 的 SEO 入门指南告诉网站所有者的原因:
在特定领域培养专业知识和值得信赖的声誉。
页面速度
没有人喜欢等待页面加载,谷歌知道这一点。这就是为什么他们使用页面速度作为 2010 年桌面搜索和 2018 年移动搜索的排名因素。
许多人对页面速度感到困惑,因此值得注意的是,您的页面不需要闪电般的排名。谷歌表示,页面速度只是“为用户提供最慢体验”的页面的问题。
换句话说,将一个已经很快的网站缩短几毫秒不太可能提高排名。它只需要足够快而不会对用户产生负面影响。
您可以在 PageSpeed Insights 中检查任何网页的速度,它还会生成建议以加快页面速度。
PageSpeed Insights 还显示您的页面在 Core Web Vitals 方面的性能。
Core Web Vitals 由三个衡量网页加载性能、交互性和视觉稳定性的指标组成。谷歌已经确认,截至 2021 年 6 月,Core Web Vitals 将成为排名信号。
您可以使用 Google Search Console 中的 Core Web Vitals 报告查看您网站上所有页面的性能。
如果很多网址效果不佳或需要改进,请联系开发者。
移动友好
65% 的 Google 搜索发生在移动设备上。这就是为什么自 2015 年以来移动友好性一直是移动设备的一个因素。
自 2019 年以来,由于谷歌转向移动优先索引,移动友好性也一直是桌面搜索的排名因素。这意味着谷歌在所有设备上“主要使用移动版本的内容进行索引和排名”。
换句话说,缺乏移动友好性会影响排名——无处不在。
您可以使用 Google 的移动友好测试工具或在 Google Search Console 的移动可用性报告中检查任何网页的移动友好性。
第 4 章
搜索引擎如何个性化搜索结果
搜索引擎明白不同的结果会吸引不同的人。这就是他们为每个用户定制结果的原因。
如果您在多个设备或浏览器上搜索过相同的内容,您可能已经看到了这种个性化的效果。结果通常会根据各种因素显示在不同的位置。
由于这种个性化,如果您正在做 SEO,您最好使用像 Ahrefs 的 Rank Tracker 这样的专用工具来跟踪您的排名位置。这些工具中报告的位置可能更接近真实,因为它们浏览网页的方式并没有为搜索引擎提供大量有用的个性化信息。
搜索引擎如何个性化结果?
谷歌表示,“诸如您的位置、过去的搜索历史和搜索设置等信息都有助于 [我们] 根据当时对您最有用和最相关的内容来定制您的结果。”
让我们仔细看看这三件事。
1. 位置
如果您搜索诸如“意大利餐馆”之类的内容,则地图包中的所有结果都是当地餐馆。
谷歌这样做是因为你不太可能飞到地球的一半吃午饭。
但 Google 也会使用您的位置来个性化地图包之外的搜索结果。如果我们向下滚动以搜索“意大利餐馆”,甚至 TripAdvisor 结果都是个性化的,我们会看到许多排名靠前的结果来自当地餐馆网站。
对于“买房”等查询,情况类似。Google 返回带有本地列表而不是国家/地区列表的页面,因为您可能不想搬到另一个国家/地区。
您的位置对本地查询的结果有很大影响,因此从两个不同位置搜索相同内容时几乎没有重叠。
2. 语言
Google 知道向*敏*感*词*用户显示英文搜索结果毫无意义。这就是为什么 Google 使用英文版 Youtube SEO 教程进行英文搜索,使用*敏*感*词*文版进行*敏*感*词*文搜索。
然而,谷歌在某种程度上依赖网站所有者来做到这一点。如果您有多种语言的页面,除非您告诉 Google,否则 Google 可能不会意识到这一点。
您可以使用名为 hreflang 的 HTML 属性来执行此操作。
Hreflang 有点复杂,远远超出了本指南的范围,但基本上它是一小段代码,表示不同语言的同一页面的多个版本之间的关系。
3. 搜索历史
也许谷歌使用搜索历史来个性化结果的最明显例子是,当您下次运行相同的搜索时,它会将之前点击的结果“排名”更高。
这种情况并不总是发生,但似乎很常见——尤其是当您在短时间内多次单击或访问该页面时。
让我们总结一下
了解搜索引擎的工作原理是在 Google 中排名更高并获得更多流量的第一步。如果搜索引擎无法找到、抓取和索引您的页面,则没有后续工作。