易闻seo搜索引擎优化实验室(robots网站为什么要使用robots.txt的应用(图))
优采云 发布时间: 2021-10-25 02:10易闻seo搜索引擎优化实验室(robots网站为什么要使用robots.txt的应用(图))
【题目】机器人的应用
【内容】
来自CN免费网
网站为什么要使用robots.txt
理论上,robots.txt只是告诉搜索引擎Spider网站中哪些内容不允许被收录索引。它不是网站不可或缺的一部分。robots.txt 网站 的配置只是不限制搜索引擎Spider 的抓取。从这个角度来说,不设置robots.txt对网站的功能没有影响。
另一方面,适当设置robots.txt可以更好地维护Web服务器,提高网站的整体性能。从这个角度来说,网站最好配置robots.txt。
我们已经介绍了使用robots.txt来控制搜索引擎对页面的抓取。同样,我们也可以通过页面文件中的“noindex”或“nofollow”属性来控制网站中搜索引擎Spider的爬取。那么,网站需要robots.txt吗?
Robots.txt 的好处
几乎所有的搜索引擎蜘蛛都遵循robots.txt给出的抓取规则。协议规定搜索引擎蜘蛛进入某个网站的入口是网站的robots.txt。当然前提是网站这个文件存在。对于没有配置robots.txt的网站,Spider会被重定向到404错误页面。相关研究表明,如果网站使用自定义的404错误页面,那么Spider会把它当做robots.txt——虽然它不是纯文本文件——这会给Spider索引网站带来很大的麻烦@> 并影响搜索引擎的 网站 页面的 收录。
robots.txt 可以防止搜索引擎抓取和索引非公开页面,例如网站 的后台程序和管理程序。事实上,对于一些在运行过程中产生临时页面的网站,如果没有配置robots.txt,搜索引擎甚至会索引这些临时文件。
robots.txt 可以防止不必要的搜索引擎占用服务器的宝贵带宽,例如电子邮件检索器,这对大多数网站 来说毫无意义;和图像剥离器,对于大多数非图形网站没有多大意义,但它消耗了大量带宽。
对于内容丰富、页面多的网站来说,robots.txt的配置更为重要,因为很多时候会遇到搜索引擎Spider对网站的巨大压力:大量蜘蛛如果访问不控制,甚至会影响网站的正常访问。
同样,如果网站中存在重复的内容,使用robots.txt来限制部分页面被搜索引擎收录和收录,可以防止网站被搜索引擎惩罚重复内容保证不影响网站的排名。
robots.txt 带来的风险及其解决方案
一切事物都有优点和缺点。Robots.txt也带来了一定的风险:它还向攻击者指出了网站的目录结构和私有数据的位置。虽然在Web服务器的安全措施配置妥当的前提下,这不是什么严重的问题,但降低了恶意攻击的难度。
比如访问网站中的私有数据,robots.txt中的设置可能如下:
用户代理: *
禁止:/abc/
这样,攻击者只需要查看robots.txt就知道你要隐藏的内容在哪里,在浏览器中输入就可以访问我们不想公开的内容。在这种情况下,一般采取以下措施:
设置访问权限并密码保护 /abc/ 中的内容,使攻击者无法进入。
另一种方法是将默认目录主文件index.html重命名为别的东西,比如abc-protect.html,这样内容的地址就变成了,同时新建一个index.html文件,大致如下内容“您无权访问此页面”。通过这种方式,攻击者无法访问私人内容,因为他们不知道实际的文件名。
下面是一些样式: 不要让引擎索引三个目录 /Article/200703/ /Soft/ /Photo/
#robots.txt 用于
# 更新请求应通过以下方式提交:
#
在网站反馈下
# 更新:2007 年 3 月 30 日
用户代理: *
禁止:/文章/200703/
禁止:/软/
禁止:/照片/
【关键词】SEO优化robots.txt应用robots.txt作用