搜索引擎优化原理(搜索引擎如何运作?有三个怎么办?处理并存储)
优采云 发布时间: 2021-09-25 03:17搜索引擎优化原理(搜索引擎如何运作?有三个怎么办?处理并存储)
搜索引擎是如何工作的?
搜索引擎具有三个主要功能:
抓取:在 Internet 上搜索内容并检查他们找到的每个 URL 的代码/内容。
索引:存储和组织爬行过程中发现的内容。一旦页面在索引中,它将在操作过程中显示为相关查询的结果。
排名:提供最能回答搜索者查询的内容,这意味着结果按最相关的顺序排列。
什么是搜索引擎抓取?
爬网是搜索引擎发送一组机器人(称为爬虫或蜘蛛)以查找新内容和更新内容的发现过程。内容可能不同——可以是网页、图像、视频、PDF 等——但无论格式如何,内容都是通过链接找到的。
这是什么字呢?
在本节中的定义遇到任何问题?我们的 SEO 词汇表具有特定于章节的定义,可帮助您了解最新情况。
Googlebot 首先提取几个网页,然后按照这些网页上的链接查找新的网址。通过跳过此链接,爬虫能够找到新内容并将其添加到名为 Caffeine 的索引中——这是一个收录已发现 URL 的大型数据库——以便搜索者可以在搜索时找到有关该 URL 内容的信息。很好的搭配。
什么是搜索引擎索引?
搜索引擎处理并存储他们在索引中找到的信息,索引是一个巨大的数据库,收录他们找到并认为足以为搜索者服务的所有内容。
搜索引擎排名
当有人进行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对内容进行排序,以解决搜索者的查询问题。按相关性对搜索结果进行排序称为排名。通常,您可以假设 网站 的排名越高,搜索引擎认为 网站 与查询的相关性就越高。
您可以阻止某些或所有站点的搜索引擎爬虫,或指示搜索引擎避免将某些页面存储在索引中。虽然这样做可能是有原因的,但如果您希望搜索者找到您的内容,您必须首先确保爬虫可以访问它并可以将其编入索引。否则,它就像看不见一样好。
抓取:搜索引擎可以找到您的网页吗?
正如您刚刚了解到的,确保您的 网站 被抓取并编入索引是在 SERP 中显示的先决条件。如果你已经有了网站,最好先看看索引有多少页。这将提供一些关于 Google 是否正在抓取并找到您想要的所有页面的重要见解,而不是如果您没有。
检查索引页的一种方法是“site:”,这是一种高级搜索运算符。转到 Google 并在搜索栏中输入“站点:”。这将在 网站 指定的索引中返回 Google 的结果:
Google 显示的结果数量(请参阅上面的“关于 XX 结果”)并不准确,但它确实让您清楚地知道哪些页面在您的 网站 上被编入索引,以及它们当前在搜索中的显示方式结果。
要获得更准确的结果,请监控并使用 Google Search Console 中的“索引覆盖率”报告。如果您目前没有,可以注册一个免费的 Google Search Console 帐户。使用此工具,您可以为您的网站 提交站点地图,并监控实际添加到 Google 索引中的提交页面数量等。
如果您没有出现在搜索结果中的任何位置,可能有以下几个原因:
1.您的 网站 是全新的,尚未被抓取。
2.您的 网站 未链接到任何外部 网站。
3.你的网站导航让机器人很难有效地抓住它。
4. 您的站点收录一些称为爬虫指令的基本代码,用于阻止搜索引擎。
5.由于 Google 的垃圾邮件政策,您的 网站 已受到处罚。
6.告诉搜索引擎如何抓取你的网站
如果您使用 Google Search Console 或“site:”高级搜索运算符并发现索引中缺少某些重要页面和/或某些不重要的页面未正确编入索引,则可以执行一些优化以更好地指示 Googlebot 如何抓取您的网络内容。告诉搜索引擎如何抓取你的 网站 可以让你更好地控制索引中的内容。
大多数人会考虑确保 Google 可以找到他们的重要页面,但很容易忘记它可能是您不希望 Googlebot 找到的页面。这些可能包括带有浓缩内容的旧 URL、重复的 URL(例如电子商务排名和过滤器参数)、特殊促销代码页、暂存或测试页等。
为了让 Googlebot 远离您的 网站 的某些页面和部分,请使用 robots.txt。
机器人.txt
Robots.txt文件位于网站的根目录下(例如/robots.txt),建议你的网站搜索引擎应该不应该抓取哪些部分,以及哪些他们应该抓取你网站 速度的部分,通过特定的robots.txt 说明。
Googlebot 如何处理 robots.txt 文件
1.如果Googlebot找不到网站的robots.txt文件,它会继续抓取网站。
2. 如果Googlebot 发现网站 的robots.txt 文件,它通常会按照这些建议继续抓取网站。
3. 如果 Googlebot 在尝试访问 网站 的 robots.txt 文件时遇到错误,但无法确定它是否存在,则不会抓取 网站
优化抓取预算!
抓取预算是 Googlebot 在您的 网站 离开之前抓取的平均网址数。因此,抓取预算优化可以确保 Googlebot 不会浪费时间浏览您不重要的页面而忽略您的重要页面。对于拥有数万个 URL 的超大型 网站 而言,抓取预算最为重要,但阻止抓取工具访问您绝对不关心的内容绝不是一个坏主意。只要确保您没有阻止爬虫访问您添加了其他指令的页面,例如规范或非索引标签。如果 Googlebot 被阻止访问某个网页,您将无法看到该网页上的说明。
并非所有网络机器人都遵循 robots.txt。怀有恶意的人(例如电子邮件地址抓取工具)将构建不遵循此协议的机器人。事实上,一些不良行为者使用 robots.txt 文件来查找您的私人内容的位置。尽管从私人页面(例如登录和管理页面)阻止爬虫以使其不会出现在索引中似乎是合乎逻辑的,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也暗示着恶意。人们可以更容易地找到它们。NoIndex 这些页面更好,将它们放在登录表单后面,而不是放在 robots.txt 文件中。