搜索引擎如何抓取网页( 如何用robts.txt这个文档去控制搜索蜘蛛网站站长)

优采云 发布时间: 2021-09-28 18:05

  搜索引擎如何抓取网页(

如何用robts.txt这个文档去控制搜索蜘蛛网站站长)

  

  如何使用robots.txt防止搜索引擎爬(爬取)你的网站?

  为了你的网站可以被其他人搜索到,搜索引擎爬虫,有时也被称为搜索机器人(bots)或搜索蜘蛛(spiders),会爬取你的网站,搜索可能会改变内容并重新- 更新搜索引擎的搜索和检索。

  如何使用robts.txt控制搜索蜘蛛

  网站站长可以使用robots.txt文档来指导搜索蜘蛛如何抓取这个网站。搜索引擎爬取网站时,会先读取robots.tx文件,并按照规则爬取网站。

  ※ 虽然robots.txt规则很重要,但搜索机器人不一定会遵守robot.txt规则,它只是一个操作策略。

  ※谷歌设置Crawl-delay必须在谷歌管理工具中设置。

  ※对于那些乱爬你的网站的劣质搜索蜘蛛,你应该研究如何使用.htamless中的User-agent来屏蔽不良搜索蜘蛛。

  编辑并创建 robots.txt 文件

  Robots.txt文件必须放在网站的根目录下,如果你的网站是可读的。

  网址位置:

  服务器位置:

  /home/userna5/public_html/robots.txt

  如果没有这个文档,可以使用纯文档文档新建一个robots.txt文档。

  搜索引擎用户代理

  对于搜索引擎蜘蛛的User-agent,使用robots.txt文件来控制是最常用的标准方法。

  搜索蜘蛛爬取网站时,会被识别为User-agent。下面提供了一些参考示例

  美国最常见的前三个搜索引擎用户代理:

  谷歌机器人

  雅虎!啜饮

  宾博

  最常被屏蔽的搜索引擎用户代理:

  机器人

  百度蜘蛛

  放大镜

  MJ12bot

  Yandex机器人

  搜索引擎蜘蛛会使用robots.txt文档规则进行爬取网站

  robots.txt 文件有很多规则来控制搜索蜘蛛如何抓取你网站。

  User-agent:可以指定哪个User-agent适用,比如*是所有User-agent的通用搭配。

  禁止:设置文档或文件夹不被搜索蜘蛛抓取。

  设置所有搜索引擎延迟抓取

  如果您的 网站 有 1000 页,搜索蜘蛛可能会在几分钟内检索所有 网站。但是,这可能会导致系统资源的过度使用,并在短时间内使所有网页过载。结果无法浏览网页。

  30 秒的延迟将允许搜索蜘蛛在 8.3 小时内检索 1,000 个网页。

  500 秒的延迟将允许搜索蜘蛛在 5.8 天内检索 1,000 个网页。

  也可以设置Crawl-delay:所有搜索蜘蛛立即搜索。

  用户代理: *

  爬行延迟:30

  允许搜索蜘蛛抓取所有网站

  在默认的空白条件下,搜索引擎蜘蛛仍然会抓取你的网站,但你仍然可以指定它是允许的。

  用户代理: *

  不允许:

  不允许搜索蜘蛛抓取所有网站

  用户代理: *

  不允许: /

  不允许搜索蜘蛛抓取特定的网站

  您可以使用这些规则来禁止特定搜索引擎蜘蛛抓取您的 网站。

  用户代理:百度蜘蛛

  不允许: /

  不允许所有搜索蜘蛛抓取特定文档

  如果一些文件如contactus.htm、index.htm、store.htm不想被搜索蜘蛛抓取,我可以使用:

  用户代理: *

  禁止:/contactus.htm

  禁止:/index.htm

  禁止:/store.htm

  除了指定的,所有搜索蜘蛛都不允许爬行

  如果我们只想让 Googlebot 抓取我们的 /private/ 目录,而不允许其他搜索蜘蛛抓取,我们可以这样使用它:

  用户代理: *

  不允许: /

  用户代理:Googlebot

  禁止:/私人/

  当Googlebot 读取我的robots.txt 文件时,它会理解该文件的内容,并且不会禁止抓取所有目录。

  如果您只想抓取和检索一个网页,请参考(使用标签阻止搜索蜘蛛检索网页)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线