知道robots文件怎么写吗?天企网络协议原理
优采云 发布时间: 2021-07-03 20:28知道robots文件怎么写吗?天企网络协议原理
编者:Robots协议全称(也叫爬虫协议、机器人协议等)是网络爬虫排除标准。 网站使用Robots协议告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。 robots.txt 是一个协议,而不是一个命令。
Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”。 网站通过Robots协议告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。 robots.txt 是一个协议,而不是一个命令。 robots.txt 是搜索引擎访问网站 时首先查看的文件。 robots.txt 文件告诉蜘蛛可以在服务器上查看哪些文件。那么站长们对机器人了解多少呢?你知道怎么写robots文件吗?天启网小编为您介绍。
机器人协议原理
机器人协议是互联网社区中的通用道德规范,基于以下原则:
1、Search 技术应该为人类服务,同时尊重信息提供者的意愿,维护他们的隐私权;
2、网站有义务保护其用户的个人信息和隐私不受侵犯。
机器人功能
Robots 协议用于通知搜索引擎哪些页面可以爬取,哪些页面不能爬取;可以屏蔽网站中一些比较大的文件,比如图片、音乐、视频等,节省服务器带宽;是 阻止网站上的一些死链接。方便搜索引擎抓取网站内容;设置网站地图链接,方便向导蜘蛛抓取页面。
文件写入
User-agent:* 这里*代表所有类型的搜索引擎,*是通配符。
如何编写robots文件
Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录。
Disallow: /require/ 这里的定义是禁止爬取require目录下的目录。
Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录。
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有后缀为“.htm”的URL(包括子目录)。
Disallow: /*?* 禁止访问网站 中收录问号 (?) 的所有 URL。
禁止:/.jpg$ 禁止抓取网络上所有 .jpg 格式的图片。
Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。
Allow: 这里定义了 /cgi-bin/ 以允许抓取 cgi-bin 目录下的目录。
Allow: /tmp 这里的定义是允许爬取tmp的整个目录。
允许:.htm$ 只允许访问带有“.htm”后缀的 URL。
允许:.gif$ 允许抓取网页和 gif 格式的图像。
站点地图:网站Map 告诉爬虫这个页面是网站Map。
这里给大家分享robots.txt文件的写法。搜索蜘蛛访问站点时,首先会检查站点根目录下是否存在robots.txt。如果存在,搜索机器人会根据这个文件的内容来决定访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问网站 上所有不受密码保护的页面。天启seo优化编辑器提醒大家,只有网站收录不想被收录搜索的内容时才需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容,请不要创建robots.txt文件。
当前网址: