4.神马Spider如何发现新网页神马spider发现网页的方式

优采云发布时间: 2021-08-20 01:27

　　神马搜索引擎蜘蛛介绍

　　1.神马蜘蛛

　　神马搜索引擎Spider是神马上网和自动抓取网页的程序。 Spider抓取网页并建立索引，以便用户通过搜索引擎搜索互联网上的资源。

　　2.神马Spider的user-agent和ip地址

　　user-agent 是http协议中的一个属性，代表终端的身份。神马蜘蛛的用户代理是 Yisouspider。由于历史原因，此用户代理名称将继续使用。

　　神马蜘蛛的ip地址是一组ip池，会动态变化，这里就不一一列举了。

　　3.神马蜘蛛的网站访问频率

　　神马会根据网站的规模、服务能力、页面质量、更新速度等因素确定网站的访问频率。通常网站神马蜘蛛的网页更新质量高，更新速度快，会比较频繁地访问，以确保向用户展示高质量、高时效的产品。

　　4.神马蜘蛛如何发现新网页

　　神马蜘蛛通过多种方式寻找新网页。最典型的就是分析发现的网页中的超链接关系，选择url并抓取，这样继续扩展，尽可能多的抓取有价值的网页。另外神马会从dns服务商处获取新的网站域名，及时抢占新的网站。

　　5.关于robots协议

　　robots.txt 是搜索引擎访问网站的第一个文件，以确定允许或禁止抓取哪些网页。神马搜索符合互联网机器人协议。如果想完全禁止神马访问或者禁止访问某些目录，可以通过robots.txt文件设置内容来限制神马蜘蛛的访问权限。

　　robots.txt 必须放在网站root 目录下，文件名必须小写。

　　具体写法：

　　1)完全禁止神马蜘蛛爬行：

　　User-agent: Yisouspider

Disallow: /

　　2)禁止神马蜘蛛爬取指定目录

　　User-agent: Yisouspider

Disallow: /update

Disallow: /history

　　禁止抓取更新和历史目录中的网页

　　6.神马蜘蛛会造成带宽负担

　　神马搜索引擎Spider有规范的爬取流程，爬取时也会考虑网站的忙闲时间，不会对网站造成带宽负担。

0

2021-08-20

seo搜索引擎优化介绍

0 个评论

要回复文章请先登录或注册