网站根目录下的robots.txt写法和robots txt合同规则

优采云发布时间: 2020-05-08 08:03

　　网站根目录下的robots txt文件是献给搜索引擎“看”的，用户网站通过Robots协议告诉搜索引擎什么页面可以抓取，哪些页面不能抓取。例如网站后台管理系统关于网络爬虫协议文件robotstxt，或者涉及到隐私的内容，或者秘密内容关于网络爬虫协议文件robotstxt，或者仅限小范围传播的内容。虽然此文件没有任何外部的链接，但是通常情况下，搜索引擎还是会定期手动检索网站的根目录是否存在此文件。

　　如果您想使搜索引擎抓取收录网站上所有内容，请设置网站根目录下的robots.txt文件内容为空，或者删掉网站根目录下的robots.txt文件。

　　Robots协议（也称为爬虫协议、机器人合同等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol）。

　　robots.txt并不是某一个公司制订的，真实Robots协议的起源，是在互联网从业人员的公开邮件组上面讨论而且诞生的。1994年6月30日，在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后，正式发布了一份行业规范，即robots.txt合同。慢慢的，这一合同被几乎所有的搜索引擎采用，包括中国的搜索引擎公司。

　　User-agent: *

　　Disallow: / （*为键值，/为目录）

　　User-agent: BadBot

　　Disallow: /

　　User-agent: Baiduspider

　　allow:/

　　Disallow: /*.asp$

　　Disallow: /admin/

　　Disallow: /abc/*.htm

　　Disallow: /*?*

　　Disallow: /.jpg$

　　Disallow:/user/mimi.html （例如商业机密或隐私内容）

　　Allow: /mimi/

　　Allow: /tmp

　　Allow: .htm$

　　Allow: .gif$

0

2020-05-08

搜索引擎 robots协议搜索引擎收录

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站根目录下的robots.txt写法和robots txt合同规则

0 个评论

发起人

AI时代内容工厂

网站根目录下的robots.txt写法和robots txt合同规则

0 个评论

发起人

相关问题