网站根目录下的robots.txt写法和robots txt合同规则
优采云 发布时间: 2020-05-08 08:03
网站根目录下的robots txt文件是献给搜索引擎“看”的,用户网站通过Robots协议告诉搜索引擎什么页面可以抓取,哪些页面不能抓取。例如网站后台管理系统关于网络爬虫协议文件robotstxt,或者涉及到隐私的内容,或者秘密内容关于网络爬虫协议文件robotstxt,或者仅限小范围传播的内容。虽然此文件没有任何外部的链接,但是通常情况下,搜索引擎还是会定期手动检索网站的根目录是否存在此文件。
如果您想使搜索引擎抓取收录网站上所有内容,请设置网站根目录下的robots.txt文件内容为空,或者删掉网站根目录下的robots.txt文件。
Robots协议(也称为爬虫协议、机器人合同等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。
robots.txt并不是某一个公司制订的,真实Robots协议的起源,是在互联网从业人员的公开邮件组上面讨论而且诞生的。1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt合同。慢慢的,这一合同被几乎所有的搜索引擎采用,包括中国的搜索引擎公司。
User-agent: *
Disallow: / (*为键值,/为目录)
User-agent: BadBot
Disallow: /
User-agent: Baiduspider
allow:/
Disallow: /*.asp$
Disallow: /admin/
Disallow: /abc/*.htm
Disallow: /*?*
Disallow: /.jpg$
Disallow:/user/mimi.html (例如商业机密或隐私内容)
Allow: /mimi/
Allow: /tmp
Allow: .htm$
Allow: .gif$