搜索引擎禁止的方式优化网站( SEO优化网站结构时控制网页抓取、索引是常用的技术)

优采云 发布时间: 2022-02-08 11:10

  搜索引擎禁止的方式优化网站(

SEO优化网站结构时控制网页抓取、索引是常用的技术)

  如何编写网站robots.txt 文件?屏蔽搜索引擎搜索方法

  

  

  

  如何编写网站robots.txt 文件?屏蔽搜索引擎搜索方法

  控制网络爬取和索引是优化 SEO 的 网站 结构时的常用技术。常用工具包括:

  机器人文件。

  网页无索引标签。

  nofollow 属性链接。

  网页 301 重定向。

  页面的标签等

  这些工具都有特定的应用场景,但都是用来控制网站的内部结构,容易混淆,经常需要配合使用。 SEO 必须准确理解这些工具的机制和原理,否则容易出错。

  此线程讨论机器人文件。

  robots文件放在域名(或子域名)的根目录下,文件名固定在robots.txt,UTF8编码,纯ASCII文本文件,用于通知搜索引擎,< @网站 可以爬取,哪些是禁止的。 robots.txt 用于域名(或子域)。

  在爬取网站页面之前,搜索引擎蜘蛛会先查看robots.txt的内容,看看哪些页面可以爬取,哪些页面是站长禁止爬取的。当然,是否遵守robots档案的规则,还要看自我意识。一些坏蜘蛛不追,站长也无能为力,比如采集内容,克隆网站。

  所有搜索引擎支持的机器人文件记录包括:

  Disallow - 告诉蜘蛛不要抓取某些文件或目录。以下代码将阻止蜘蛛抓取所有站点文件:

  用户代理:*

  禁止:/

  Allow - 告诉蜘蛛应该抓取一些文件。 Allow 和 Disallow 可以一起使用来告诉蜘蛛不要捕获它们中的大部分,而只捕获某个目录中的一部分。下面的代码将使蜘蛛不爬取ab目录下的其他文件,而只爬取cd下的文件:

  用户代理:*

  禁止:/ab/

  允许:/ab/cd。

  $ 通配符 - 匹配 URL 末尾的字符。以下代码允许蜘蛛访问以 .htm 为后缀的 URL:

  用户代理:*

  允许:。 htm$。

  * 通配符 - 告诉蜘蛛匹配任何字符。以下代码将禁止蜘蛛抓取所有 htm 文件:

  用户代理:*

  不允许:/*.htm

  位置 - 告诉蜘蛛你的 网站地图在哪里,格式如下:

  网站地图:

  另外,请注意 robots.txt 文件不需要存在,返回 404 错误意味着蜘蛛可以抓取所有内容。但是在爬取robots.txt文件的时候会出现超时等错误,可能会导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么它与确认文件不同。存在不同。

  另外,如果404页面收录一些URL,可能会导致搜索引擎将404页面的内容误认为是robots文件的内容,从而导致不可预知的后果。所以最好放个robots文件,哪怕是空的,哪怕所有的搜索引擎蜘蛛都想打开。

  掌握使用robots文件和编写搜索引擎优化的基本技巧。当页面不是收录或急剧下降时,也应首先检查机器人文件。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线