搜索引擎优化原理(搜索引擎如何运作？有三个怎么办？处理并存储)

优采云发布时间: 2021-09-25 03:17

　　搜索引擎是如何工作的？

　　搜索引擎具有三个主要功能：

　　抓取：在 Internet 上搜索内容并检查他们找到的每个 URL 的代码/内容。

　　索引：存储和组织爬行过程中发现的内容。一旦页面在索引中，它将在操作过程中显示为相关查询的结果。

　　排名：提供最能回答搜索者查询的内容，这意味着结果按最相关的顺序排列。

　　什么是搜索引擎抓取？

　　爬网是搜索引擎发送一组机器人（称为爬虫或蜘蛛）以查找新内容和更新内容的发现过程。内容可能不同——可以是网页、图像、视频、PDF 等——但无论格式如何，内容都是通过链接找到的。

　　这是什么字呢？

　　在本节中的定义遇到任何问题？我们的 SEO 词汇表具有特定于章节的定义，可帮助您了解最新情况。

　　Googlebot 首先提取几个网页，然后按照这些网页上的链接查找新的网址。通过跳过此链接，爬虫能够找到新内容并将其添加到名为 Caffeine 的索引中——这是一个收录已发现 URL 的大型数据库——以便搜索者可以在搜索时找到有关该 URL 内容的信息。很好的搭配。

　　什么是搜索引擎索引？

　　搜索引擎处理并存储他们在索引中找到的信息，索引是一个巨大的数据库，收录他们找到并认为足以为搜索者服务的所有内容。

　　搜索引擎排名

　　当有人进行搜索时，搜索引擎会在其索引中搜索高度相关的内容，然后对内容进行排序，以解决搜索者的查询问题。按相关性对搜索结果进行排序称为排名。通常，您可以假设网站的排名越高，搜索引擎认为网站与查询的相关性就越高。

　　您可以阻止某些或所有站点的搜索引擎爬虫，或指示搜索引擎避免将某些页面存储在索引中。虽然这样做可能是有原因的，但如果您希望搜索者找到您的内容，您必须首先确保爬虫可以访问它并可以将其编入索引。否则，它就像看不见一样好。

　　抓取：搜索引擎可以找到您的网页吗？

　　正如您刚刚了解到的，确保您的网站被抓取并编入索引是在 SERP 中显示的先决条件。如果你已经有了网站，最好先看看索引有多少页。这将提供一些关于 Google 是否正在抓取并找到您想要的所有页面的重要见解，而不是如果您没有。

　　检查索引页的一种方法是“site:”，这是一种高级搜索运算符。转到 Google 并在搜索栏中输入“站点：”。这将在网站指定的索引中返回 Google 的结果：

　　Google 显示的结果数量（请参阅上面的“关于 XX 结果”）并不准确，但它确实让您清楚地知道哪些页面在您的网站上被编入索引，以及它们当前在搜索中的显示方式结果。

　　要获得更准确的结果，请监控并使用 Google Search Console 中的“索引覆盖率”报告。如果您目前没有，可以注册一个免费的 Google Search Console 帐户。使用此工具，您可以为您的网站提交站点地图，并监控实际添加到 Google 索引中的提交页面数量等。

　　如果您没有出现在搜索结果中的任何位置，可能有以下几个原因：

　　1.您的网站是全新的，尚未被抓取。

　　2.您的网站未链接到任何外部网站。

　　3.你的网站导航让机器人很难有效地抓住它。

　　4. 您的站点收录一些称为爬虫指令的基本代码，用于阻止搜索引擎。

　　5.由于 Google 的垃圾邮件政策，您的网站已受到处罚。

　　6.告诉搜索引擎如何抓取你的网站

　　如果您使用 Google Search Console 或“site:”高级搜索运算符并发现索引中缺少某些重要页面和/或某些不重要的页面未正确编入索引，则可以执行一些优化以更好地指示 Googlebot 如何抓取您的网络内容。告诉搜索引擎如何抓取你的网站可以让你更好地控制索引中的内容。

　　大多数人会考虑确保 Google 可以找到他们的重要页面，但很容易忘记它可能是您不希望 Googlebot 找到的页面。这些可能包括带有浓缩内容的旧 URL、重复的 URL（例如电子商务排名和过滤器参数）、特殊促销代码页、暂存或测试页等。

　　为了让 Googlebot 远离您的网站的某些页面和部分，请使用 robots.txt。

　　机器人.txt

　　Robots.txt文件位于网站的根目录下（例如/robots.txt），建议你的网站搜索引擎应该不应该抓取哪些部分，以及哪些他们应该抓取你网站速度的部分，通过特定的robots.txt 说明。

　　Googlebot 如何处理 robots.txt 文件

　　1.如果Googlebot找不到网站的robots.txt文件，它会继续抓取网站。

　　2. 如果Googlebot 发现网站的robots.txt 文件，它通常会按照这些建议继续抓取网站。

　　3. 如果 Googlebot 在尝试访问网站的 robots.txt 文件时遇到错误，但无法确定它是否存在，则不会抓取网站

　　优化抓取预算！

　　抓取预算是 Googlebot 在您的网站离开之前抓取的平均网址数。因此，抓取预算优化可以确保 Googlebot 不会浪费时间浏览您不重要的页面而忽略您的重要页面。对于拥有数万个 URL 的超大型网站而言，抓取预算最为重要，但阻止抓取工具访问您绝对不关心的内容绝不是一个坏主意。只要确保您没有阻止爬虫访问您添加了其他指令的页面，例如规范或非索引标签。如果 Googlebot 被阻止访问某个网页，您将无法看到该网页上的说明。

　　并非所有网络机器人都遵循 robots.txt。怀有恶意的人（例如电子邮件地址抓取工具）将构建不遵循此协议的机器人。事实上，一些不良行为者使用 robots.txt 文件来查找您的私人内容的位置。尽管从私人页面（例如登录和管理页面）阻止爬虫以使其不会出现在索引中似乎是合乎逻辑的，但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也暗示着恶意。人们可以更容易地找到它们。NoIndex 这些页面更好，将它们放在登录表单后面，而不是放在 robots.txt 文件中。

0

2021-09-25

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化原理(搜索引擎如何运作？有三个怎么办？处理并存储)

0 个评论

发起人