搜索引擎如何抓取网页(网站优化前必须充分理解搜索引擎是如何工作的?(一))
优采云 发布时间: 2021-10-24 05:06搜索引擎如何抓取网页(网站优化前必须充分理解搜索引擎是如何工作的?(一))
前言:要优化网站,首先要了解搜索引擎是如何工作的,就像要出版一本好小说一样,首先要学会写作。
虽然无数的猴子在无数的打字机上不断地随意打字,他们最终会在某个时刻写出一些有用的东西(无限猴子定律),但如果我们能在做任务之前掌握任务的核心要素,那么我们就可以节省大量能源。
因此,在进行网站搜索引擎优化之前,我们必须充分了解搜索引擎的工作原理。
虽然我们主要研究有机搜索(关键词自然搜索),但我们仍然需要简要讨论一个关于搜索引擎的重要事实。
付费搜索结果
无论是谷歌、必应,还是其他主流搜索引擎,提供自然的搜索结果都不是他们的商业意图。
换句话说,虽然自然搜索结果是最终的实际搜索结果,但并没有能够给谷歌带来直接的好处。
如果没有有机搜索结果,Google 的付费搜索结果就不会那么重要,因此会引起关注,付费点击次数也会减少。
基本上,Google 和 Bing(以及其他搜索引擎)可以说是广告引擎,它们恰好将用户引导至其自然搜索结果。因此,我们网站优化的最终目标是自然搜索结果的排名。
为什么自然搜索结果如此重要?
自然搜索的重要性在于:搜索引擎搜索结果的布局正在发生变化。
搜索引擎有一些扩展功能,如:知识面板、精选片段等;自然搜索有一定的可观点击率。
谷歌在具有商业意图的查询中推出了第四类付费搜索结果,并推出了一项功能,可以让你不用离开页面就可以直接在搜索结果页面上获得查询问题的答案……这些功能都是自然搜索的结果结果存在。
不管你在谷歌看到什么变化,请记住重要的一点:不要只看它目前会产生什么影响,而要看它会产生什么长期影响。
现在我们已经了解了 Google 提供自然搜索结果的原因,让我们来看看它是如何工作的。为了理解这一点,我们需要学习:爬行和索引;排序算法;机器学习;用户搜索意图等,本文重点介绍索引,一起来了解一下...
指数
索引是我们研究搜索引擎问题的起点。
对于那些不太了解搜索引擎的人来说,索引只是意味着将网络内容添加到 Google。
当你在 网站 上创建一个新页面时,有很多方法可以使页面被索引。
将页面编入索引的最简单方法是什么都不做。
Google 有爬虫来跟踪链接,因此如果您已将您的网站提交给 Google 进行索引,并且新内容链接到您的网站,Google 最终会找到它并将其添加到索引库中。我们稍后会详细介绍它们。
如果您希望 Googlebot(Google 蜘蛛)更快地进入您的 网站 页面怎么办?
有一点很重要:您必须拥有更多最新内容,并且必须让 Google 知道您对网页进行了更重要的更改。
这也是我优化网站一个很重要的页面,或者调整页面标题和描述以提高点击率,或者探索该页面何时被搜索引擎选中并出现在搜索结果页面中的时候。Google 蜘蛛索引 网站 更快的一个非常重要的原因。
如果你想让 Googlebot(谷歌蜘蛛)更快地抓取和索引网页,你也可以使用以下方法:
1、XML 站点地图
基本上,XML 站点地图是通过 Google Search Console(Google 网站管理员工具)提交给 Google 的站点地图。
XML 站点地图为搜索引擎提供站点上所有页面的列表,以及其他详细信息,例如 XML 站点地图的最后修改。
这个方法绝对值得推荐!
但是,如果您需要搜索引擎立即抓取和索引页面怎么办?这种方法不再那么可靠了。
2、谷歌爬虫
在 Google Search Console 中,您可以使用 Fetch as Google(Google 爬虫)
在左侧的导航栏中,只需点击“抓取”>“Google 抓取”即可。
输入要编入索引的 URL,然后单击 Fetch。
获取 URL 后,您将看到“请求索引”选项。
单击此选项按钮。
通常在几秒到几分钟内,你就可以在谷歌中搜索新提交的内容或网址,发现新的内容已经被更改了收录。
3、向谷歌提交网址
如果你懒得登录Google Search Console,或者想让网站新内容在第三方网站上快速更新?只需谷歌一下。
只需在Google搜索框中输入[Submit URL to Google],您就会得到一个URL字段提交框。
这就像通过搜索控制台快速提交网页。
在 Bing 中,您也可以这样做。
4、Google+(Google+、G+)
Google+是一个SNS社交网站,您可以通过自己的谷歌账号登录,在这个社交网站上与不同兴趣的朋友分享有趣的事情。它于 2011 年 6 月 28 日亮相,目前仍处于测试阶段。
将新网址发布到 Google+,几秒钟后您就会看到它已被编入索引。
谷歌必须通过抓取网址来获取图片、描述等信息,并通过阅读这些信息来判断该网页是否已被索引。
这可能是谷歌索引内容的第二快方法。至于最快的方法,还有待研究……
5、在 Google 上托管 网站 内容
谷歌抓取网站和索引网页需要时间。一种方式是将网站的内容直接托管给Google。
有几种不同的方式来托管内容,但我们大多数人都没有采用这些技术和方法,谷歌也没有向我们推荐这些方法。
我们允许谷歌直接访问网站的内容并通过XML feeds、API等方式提取信息,实际上我们已经将网站托管给了谷歌。
Google 的移动应用平台 Firebase 可以直接访问应用的内容,无需抓取任何信息。
这是未来的趋势:让谷歌方便快捷地索引网站的内容,让搜索引擎可以更加技术化地为网站提供服务。
抓取预算
当我们讨论索引时,我们必须谈论爬行预算。
爬行预算可以理解为搜索引擎蜘蛛在一个网站上爬取页面所花费的总时间的上限。
预算份额受多种因素影响。有两点非常重要:
1、网站服务器响应速度有多快
这意味着谷歌蜘蛛可以在不影响用户体验的情况下以最快的速度抓取网站网页。搜索引擎蜘蛛不会为了抓取更多的页面而拖拽网站服务器,所以对于某个网站,会设置一个网页抓取速度的上限,即服务器可以承受。在这个速度限制内,搜索引擎蜘蛛的抓取不会降低服务器的速度,也不会影响用户访问。抓取速率限制影响搜索引擎可以抓取的页面数。服务器响应速度下降,爬行限速也相应下降,爬行变慢,甚至停止爬行。
2、网站的重要性(可以理解为网站的权重)
如果您经营的是一个大型新闻网站,并且不断更新用户想知道的信息搜索,那么您的网站将非常频繁地被抓取和索引。(这个我可以保证!)
如果你运行一个有几十个链接的小网站,在这种情况下,你的网站不会被谷歌认为重要(你可能在某个领域很重要,但说到爬行,预算就没那么重要了),那么抓取预算就会很低。
小网站不用担心抢份额
小网站页面数量少,即使网站权重低,服务器慢,不管搜索引擎蜘蛛每天爬多少,通常至少几百页可以爬取。再次抓取整个网站。
(编译/全局搜索小峰)