4.神马Spider如何发现新网页神马spider发现网页的方式

优采云 发布时间: 2021-08-20 01:27

  

4.神马Spider如何发现新网页神马spider发现网页的方式

  神马搜索引擎蜘蛛介绍

  1.神马蜘蛛

  神马搜索引擎Spider是神马上网和自动抓取网页的程序。 Spider抓取网页并建立索引,以便用户通过搜索引擎搜索互联网上的资源。

  2.神马Spider的user-agent和ip地址

  user-agent 是http协议中的一个属性,代表终端的身份。神马蜘蛛的用户代理是 Yisouspider。由于历史原因,此用户代理名称将继续使用。

  神马蜘蛛的ip地址是一组ip池,会动态变化,这里就不一一列举了。

  3.神马蜘蛛的网站访问频率

  神马会根据网站的规模、服务能力、页面质量、更新速度等因素确定网站的访问频率。通常网站神马蜘蛛的网页更新质量高,更新速度快,会比较频繁地访问,以确保向用户展示高质量、高时效的产品。

  4.神马蜘蛛如何发现新网页

  神马蜘蛛通过多种方式寻找新网页。最典型的就是分析发现的网页中的超链接关系,选择url并抓取,这样继续扩展,尽可能多的抓取有价值的网页。另外神马会从dns服务商处获取新的网站域名,及时抢占新的网站。

  5.关于robots协议

  robots.txt 是搜索引擎访问网站 的第一个文件,以确定允许或禁止抓取哪些网页。神马搜索符合互联网机器人协议。如果想完全禁止神马访问或者禁止访问某些目录,可以通过robots.txt文件设置内容来限制神马蜘蛛的访问权限。

  robots.txt 必须放在网站root 目录下,文件名必须小写。

  具体写法:

  1)完全禁止神马蜘蛛爬行:

  User-agent: Yisouspider

Disallow: /

  2)禁止神马蜘蛛爬取指定目录

  User-agent: Yisouspider

Disallow: /update

Disallow: /history

  禁止抓取更新和历史目录中的网页

  6.神马蜘蛛会造成带宽负担

  神马搜索引擎Spider有规范的爬取流程,爬取时也会考虑网站的忙闲时间,不会对网站造成带宽负担。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线