搜索引擎禁止的方式优化网站( SEO优化网站结构时控制网页抓取、索引是常用的技术)
优采云 发布时间: 2022-02-08 11:10搜索引擎禁止的方式优化网站(
SEO优化网站结构时控制网页抓取、索引是常用的技术)
如何编写网站robots.txt 文件?屏蔽搜索引擎搜索方法
如何编写网站robots.txt 文件?屏蔽搜索引擎搜索方法
控制网络爬取和索引是优化 SEO 的 网站 结构时的常用技术。常用工具包括:
机器人文件。
网页无索引标签。
nofollow 属性链接。
网页 301 重定向。
页面的标签等
这些工具都有特定的应用场景,但都是用来控制网站的内部结构,容易混淆,经常需要配合使用。 SEO 必须准确理解这些工具的机制和原理,否则容易出错。
此线程讨论机器人文件。
robots文件放在域名(或子域名)的根目录下,文件名固定在robots.txt,UTF8编码,纯ASCII文本文件,用于通知搜索引擎,< @网站 可以爬取,哪些是禁止的。 robots.txt 用于域名(或子域)。
在爬取网站页面之前,搜索引擎蜘蛛会先查看robots.txt的内容,看看哪些页面可以爬取,哪些页面是站长禁止爬取的。当然,是否遵守robots档案的规则,还要看自我意识。一些坏蜘蛛不追,站长也无能为力,比如采集内容,克隆网站。
所有搜索引擎支持的机器人文件记录包括:
Disallow - 告诉蜘蛛不要抓取某些文件或目录。以下代码将阻止蜘蛛抓取所有站点文件:
用户代理:*
禁止:/
Allow - 告诉蜘蛛应该抓取一些文件。 Allow 和 Disallow 可以一起使用来告诉蜘蛛不要捕获它们中的大部分,而只捕获某个目录中的一部分。下面的代码将使蜘蛛不爬取ab目录下的其他文件,而只爬取cd下的文件:
用户代理:*
禁止:/ab/
允许:/ab/cd。
$ 通配符 - 匹配 URL 末尾的字符。以下代码允许蜘蛛访问以 .htm 为后缀的 URL:
用户代理:*
允许:。 htm$。
* 通配符 - 告诉蜘蛛匹配任何字符。以下代码将禁止蜘蛛抓取所有 htm 文件:
用户代理:*
不允许:/*.htm
位置 - 告诉蜘蛛你的 网站地图在哪里,格式如下:
网站地图:
另外,请注意 robots.txt 文件不需要存在,返回 404 错误意味着蜘蛛可以抓取所有内容。但是在爬取robots.txt文件的时候会出现超时等错误,可能会导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么它与确认文件不同。存在不同。
另外,如果404页面收录一些URL,可能会导致搜索引擎将404页面的内容误认为是robots文件的内容,从而导致不可预知的后果。所以最好放个robots文件,哪怕是空的,哪怕所有的搜索引擎蜘蛛都想打开。
掌握使用robots文件和编写搜索引擎优化的基本技巧。当页面不是收录或急剧下降时,也应首先检查机器人文件。