搜索引擎禁止的方式优化网站( SEO优化网站结构时控制网页抓取、索引是常用的技术)

优采云发布时间: 2022-02-08 11:10

　　搜索引擎禁止的方式优化网站(

SEO优化网站结构时控制网页抓取、索引是常用的技术)

　　如何编写网站robots.txt 文件？屏蔽搜索引擎搜索方法

　　如何编写网站robots.txt 文件？屏蔽搜索引擎搜索方法

　　控制网络爬取和索引是优化 SEO 的网站结构时的常用技术。常用工具包括：

　　机器人文件。

　　网页无索引标签。

　　nofollow 属性链接。

　　网页 301 重定向。

　　页面的标签等

　　这些工具都有特定的应用场景，但都是用来控制网站的内部结构，容易混淆，经常需要配合使用。 SEO 必须准确理解这些工具的机制和原理，否则容易出错。

　　此线程讨论机器人文件。

　　robots文件放在域名（或子域名）的根目录下，文件名固定在robots.txt，UTF8编码，纯ASCII文本文件，用于通知搜索引擎，< @网站可以爬取，哪些是禁止的。 robots.txt 用于域名（或子域）。

　　在爬取网站页面之前，搜索引擎蜘蛛会先查看robots.txt的内容，看看哪些页面可以爬取，哪些页面是站长禁止爬取的。当然，是否遵守robots档案的规则，还要看自我意识。一些坏蜘蛛不追，站长也无能为力，比如采集内容，克隆网站。

　　所有搜索引擎支持的机器人文件记录包括：

　　Disallow - 告诉蜘蛛不要抓取某些文件或目录。以下代码将阻止蜘蛛抓取所有站点文件：

　　用户代理：*

　　禁止：/

　　Allow - 告诉蜘蛛应该抓取一些文件。 Allow 和 Disallow 可以一起使用来告诉蜘蛛不要捕获它们中的大部分，而只捕获某个目录中的一部分。下面的代码将使蜘蛛不爬取ab目录下的其他文件，而只爬取cd下的文件：

　　用户代理：*

　　禁止：/ab/

　　允许：/ab/cd。

　　$ 通配符 - 匹配 URL 末尾的字符。以下代码允许蜘蛛访问以 .htm 为后缀的 URL：

　　用户代理：*

　　允许：。 htm$。

　　* 通配符 - 告诉蜘蛛匹配任何字符。以下代码将禁止蜘蛛抓取所有 htm 文件：

　　用户代理：*

　　不允许：/*.htm

　　位置 - 告诉蜘蛛你的网站地图在哪里，格式如下：

　　另外，请注意 robots.txt 文件不需要存在，返回 404 错误意味着蜘蛛可以抓取所有内容。但是在爬取robots.txt文件的时候会出现超时等错误，可能会导致搜索引擎不收录网站，因为蜘蛛不知道robots.txt文件是否存在或者里面有什么它与确认文件不同。存在不同。

　　另外，如果404页面收录一些URL，可能会导致搜索引擎将404页面的内容误认为是robots文件的内容，从而导致不可预知的后果。所以最好放个robots文件，哪怕是空的，哪怕所有的搜索引擎蜘蛛都想打开。

　　掌握使用robots文件和编写搜索引擎优化的基本技巧。当页面不是收录或急剧下降时，也应首先检查机器人文件。

0

2022-02-08

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册