什么是抓取、收录网页抓取工具.txt文件介绍
优采云 发布时间: 2021-07-06 05:10什么是抓取、收录网页抓取工具.txt文件介绍
网站建好,请问如何获取收录网站搜索引擎?如果页面无法被搜索引擎收录搜索到,则说明该页面尚未展示,无法竞争排名获取SEO流量。本文将围绕爬虫和收录亮点,从基本原理、常见问题和解决方案三个维度探讨搜索引擎优化。什么是爬虫,收录web爬虫robots.txt文件介绍
如何查看网站的收录情况
设置网页不被搜索引擎索引
搜索引擎的原理:搜索引擎将互联网上的网页内容存储在自己的服务器上。当用户搜索一个词时,搜索引擎会在自己的服务器上找到相关内容,即只搜索保存在搜索引擎服务器上的网页。
哪些网页可以保存在搜索引擎的服务器上?
只有搜索引擎爬虫抓取到的网页才会保存在搜索引擎的服务器上。这个网页的爬虫是搜索引擎的蜘蛛。整个过程分为爬行和爬行。
一、什么在爬,收录
爬行:
这是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“爬行”是指寻找新的或更新的网页并将其添加到谷歌的过程; (点此查看谷歌官网文档)
收录(索引):
是搜索引擎在其数据库中存储页面的结果,也称为索引。谷歌官方的解释是:谷歌的爬虫(“Googlebot”)已经访问了该页面,分析了其内容和含义,并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中; (点此查看谷歌官网文档)
抓取预算:
是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间上限。一般小的网站(几百或几千页)不用担心,搜索引擎分配的爬取配额不够;大网站(百万或千万页)会更多地考虑这个问题。如果搜索引擎每天爬取几万个页面,整个网站页面爬取可能需要几个月甚至一年的时间。通常,这些数据可以从 Google Search Console 的后端学习。如下图所示,红框内的平均值为网站分配的爬取配额。
通过一个例子让大家更好的理解爬取、收录和爬取配额:
搜索引擎比作一个巨大的图书馆,网站比作书店,书店里的书比作网站页面,蜘蛛爬虫比作图书馆买家。
为了丰富图书馆的藏书量,购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取;
当买家认为这本书有价值时,他会购买并带回图书馆采集。这本书合集就是我们所说的收录;
每个买家的购书预算有限,他会优先购买价值高的书籍。这个预算就是我们理解的抢配额。
二、网络爬虫
“爬虫”是一个通用术语,指的是任何程序(例如机器人或“蜘蛛”程序)通过从一个网页到另一个网页的链接来自动发现和扫描网站。 Google 的主要抓取工具称为 Googlebot。
三、robots.txt 文件介绍
robots.txt 文件指定了爬虫的爬取规则。
robots.txt 文件必须位于主机的顶级目录中。
一般情况下,robots.txt文件中会出现三种不同的爬取结果:
Robots.txt 使用示例:网站目录下的所有文件都可以被所有搜索引擎蜘蛛访问 User-agent:*
Disallow:
禁止所有搜索引擎蜘蛛访问网站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛访问网站的几个目录
User-agent: *
Disallow: /a/
Disallow: /b/
只允许某个搜索引擎蜘蛛访问
User-agent: Googlebot
Disallow:
屏蔽所有带参数的 URL
User-agent: *
Disallow: /*?
网站 一些文件应该限制被蜘蛛抓取:
一般网站中不需要蜘蛛爬取的文件包括:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片、背景图片、等
robots.txt 文件带来的风险及其解决方法:
robots.txt 也带来了一定的风险:它还向攻击者指出了网站 目录结构和私有数据的位置。设置访问权限和密码保护您的私人内容,使攻击者无法进入。
四、如何查看网站的收录情况
①通过站点命令。
谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令,您可以在宏观层面查看网站 已经收录 的页面数量。这个值不准确,有一定的波动性,但有一定的参考价值。如下图所示,Google收录为网站提供的网页数量约为165个。
②如果网站已经验证了Google Search Console,这样就可以得到网站被Google收录的精确值,如下图红框所示,Google收录了网站的216页;
③如果要查询特定页面是否为收录,可以使用info命令。谷歌支持 info 命令,但百度和必应不支持。在谷歌中输入信息:URL。如果返回结果,页面已经是收录,如下图:
五、 设置网页不被搜索引擎索引
推荐使用robots meta标签,在head标签中添加如下代码:
可以使用多个指令,这些指令不区分大小写。
全部
对索引或内容显示没有限制。该命令为默认值,所以显式列出时无效。
无索引
不要在搜索结果中显示此页面。 nofollow 不遵循此页面上的链接。
无
与 noindex、nofollow 相同。 noarchive 不会在搜索结果中显示缓存的链接。
没有片段
不要在搜索结果中显示网页的文本摘要或视频预览。如果静态图像缩略图(如果有)能够提供更好的用户体验,则它们可能仍会显示。这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 发现)。
最大片段:[数量]
您最多只能使用 [number] 个字符作为此搜索结果的文本摘要。 (请注意,该 URL 可能会在搜索结果页面上显示为多个搜索结果。)这不会影响图像或视频预览。这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 发现、Google 助理)。但是,如果发布者单独授予了内容使用权,则此限制不适用。例如,如果发布商以页内结构化数据的形式提供内容或与 Google 签订了许可协议,则此设置不会阻止这些更具体的许可用途。如果没有指定resolvable [number],该命令将被忽略。
特殊价值:
示例:
最大图像预览:[设置]
设置该网页在搜索结果中预览图片的最大尺寸。
接受的设置值:
这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 发现、Google 助理)。但是,如果发布者单独授予了内容使用权,则此限制不适用。例如,如果发布商以页内结构化数据的形式提供内容(例如 AMP 页面和文章 的规范版本),或者与 Google 签订了许可协议,则此设置不会阻止这些更具体的允许用途。
如果发布商不希望 Google 在搜索结果页面或“探索”功能中显示其 AMP 页面和 文章 的规范版本时使用更大的缩略图,则应指定 max-image-preview 的值标准或无。
示例:
最大视频预览:[数量]
此页面上视频的视频摘要在搜索结果中不得超过 [number] 秒。
其他支持的值:
这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 视频、Google 发现、Google 助理)。如果没有指定resolvable [number],该命令将被忽略。
示例:
不翻译
不要在搜索结果中提供网页的翻译。
无图像索引
此页面上的图片将不会被编入索引。
unavailable_after:[日期/时间]
在指定的日期/时间之后,网页将不会显示在搜索结果中。日期/时间必须以广泛使用的格式指定,包括但不限于RFC 822、RFC 850 和ISO 8601。如果未指定有效的[日期/时间],则该命令将被忽略。默认情况下,内容没有过期日期。
示例:
参考资料: