搜索引擎禁止的方式优化网站(ROBOTS.txt文件是什么为何如此重要?(图))
优采云 发布时间: 2021-09-03 10:09搜索引擎禁止的方式优化网站(ROBOTS.txt文件是什么为何如此重要?(图))
ROBOTS 文件(robots.txt)是位于网站 根目录下的文件,也称为机器人排除协议或标准,用于通知搜索引擎应该抓取网站 上的哪些网页以及哪些页面不应被抓取。 META ROBOTS是一个可以单独写入网页的meta标签,也是一个为搜索引擎阅读网站网页提供指导的计算机程序。
无需任何技术和经验即可充分利用robots.txt的强大功能。可以通过查看网站源代码找到robots.txt。首先,让我们看看 robots.txt 文件是什么以及它为何如此重要。
什么是 robots.txt
robots.txt 是由网站administrators 创建的文本文件,用于告诉网络机器人(通常是搜索引擎机器人)如何在网站 上抓取他们的网页。 robots.txt 文件是机器人排除协议 (REP) 的一部分,该协议是一组 WEB 标准,用于管理机器人如何抓取网络、访问和索引内容以及向用户提供内容。 REP 还包括诸如 META ROBOTS 之类的说明,以及有关搜索引擎应如何处理链接(例如“follow”或“nofollow”)页面、子目录或站点范围的说明的说明。
ROBOTS 文件的基本格式如下:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
以下两个被认为是完整的robots.txt文件,尽管一个robots文件收录多行用户代理和指令(即禁止、允许、抓取延迟等)。
在以下示例中,robots.txt 文件中,每组用户代理命令显示为一个离散集,以换行符分隔:
在收录多个用户代理指令的robots.txt文件中,每个禁止或许可规则仅适用于特定行分隔符集中指定的用户代理。如果文件收录多个用户代理的规则,搜索引擎程序将关注(并按照说明)最具体的指令组。示例如下:
robots.txt 的重要性
网站使用robots.txt有几个重要原因:
需要强调的是,有些网站可能觉得不需要robots.txt,因为他们不需要在公众视野中隐藏网站的敏感数据,让GOOGLEBOT从由内而外,如果网站没有robots.txt,默认搜索引擎可以访问所有网站。
如果你想知道为什么robots.txt如此好奇,你必须明白这个文件内容的重要性:
各大搜索引擎和大多数小型搜索引擎都会读取robots.txt的内容,并按照网站robots.txt的说明读取网站。优化robots.txt的方式取决于你网站上的内容。有多种使用 robots.txt 的方法。
最常用的robots.txt优化方法
使用 robots.txt 的最常见方式是屏蔽搜索引擎。不要抢你不想索引的网站区域。提供xml站点地图访问路径。把robots.txt放在网站根目录下。以下面为例。
第一种:屏蔽不想被搜索引擎收录的区域
User-agent: *
Disallow: /private
代码说明:
第一行,用户代理,*表示允许所有搜索访问;
第二行,告诉搜索引擎不要爬取收录/private 文件夹。
第二:指定GOOGLEBOT搜索引擎无法访问收录/private文件夹
User-agent: Googlebot
Disallow: /private
代码说明:
第一行,用户代理,表示指定 Googlebot 搜索引擎;
第二行,告诉 Googlebot 搜索引擎不要抓取和收录/private 文件夹。
第三种:网站block所有搜索引擎
User-agent: *
Disallow: /*
代码说明:
第一行,用户代理,*表示所有搜索引擎;
第二行,告诉搜索引擎不要抓取收录网站的所有文件和文件夹。
在以上三种情况下,我注意到如果你在robots.txt中写一些东西,它会伤害网站很多。 Disallow:/*此命令为网站,用于屏蔽所有搜索引擎。如果网站使用该命令,搜索引擎会将网站从索引中移除,请注意。
经典 robots.txt 示例
在实际操作中,最经典的robots.txt应该收录以下内容:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
代码说明:
第一行,用户代理,*表示所有搜索引擎;
第二行,允许所有搜索引擎无阻塞访问你的网站;
第三行,指定网站map的位置,方便搜索引擎找到。
测试和验证 robots.txt
虽然我们可以通过浏览器访问robots.txt URL来查看robots.txt的内容,但最好的测试和验证方式是通过GOOGLE SEARCH CONSOLE的robots.txt测试程序。
登录您的 GOOGLE SEARCH CONSOLE 帐户;点击爬取选项下找到的robots.txt测试工具;点击“测试”按钮。
如果一切正常,“测试”按钮将变为绿色,按钮文本将变为“允许”。如果出现问题,将突出显示导致禁用的行。
Robots.txt SEO 最佳实践
robots.txt 是一个不安全的文件系统。提供给机器人的并不是真正的文本请求,也没有办法强迫它们遵守规则。所以网站是一个非常重要的领域,禁止robots.txt不能帮助你实现这个目标。
ROBOTS 元标记
ROBOTS 元标记的基本格式如下所示:
四种用法:
所以不要太担心 robots.txt 文件或 ROBOTS 元标记。除了使用这个文件来指定站点地图的位置外,后面的课程我们还会回到问题的详细介绍。
出发前
您不必花费太多时间配置或测试 robots.txt。重要的是拥有一个并通过 GOOGLE网站Admin 工具测试。您是否阻止搜索引擎爬虫访问您的网站。