4.神马Spider如何发现新网页神马spider发现网页的方式
优采云 发布时间: 2021-08-20 01:27
4.神马Spider如何发现新网页神马spider发现网页的方式
神马搜索引擎蜘蛛介绍
1.神马蜘蛛
神马搜索引擎Spider是神马上网和自动抓取网页的程序。 Spider抓取网页并建立索引,以便用户通过搜索引擎搜索互联网上的资源。
2.神马Spider的user-agent和ip地址
user-agent 是http协议中的一个属性,代表终端的身份。神马蜘蛛的用户代理是 Yisouspider。由于历史原因,此用户代理名称将继续使用。
神马蜘蛛的ip地址是一组ip池,会动态变化,这里就不一一列举了。
3.神马蜘蛛的网站访问频率
神马会根据网站的规模、服务能力、页面质量、更新速度等因素确定网站的访问频率。通常网站神马蜘蛛的网页更新质量高,更新速度快,会比较频繁地访问,以确保向用户展示高质量、高时效的产品。
4.神马蜘蛛如何发现新网页
神马蜘蛛通过多种方式寻找新网页。最典型的就是分析发现的网页中的超链接关系,选择url并抓取,这样继续扩展,尽可能多的抓取有价值的网页。另外神马会从dns服务商处获取新的网站域名,及时抢占新的网站。
5.关于robots协议
robots.txt 是搜索引擎访问网站 的第一个文件,以确定允许或禁止抓取哪些网页。神马搜索符合互联网机器人协议。如果想完全禁止神马访问或者禁止访问某些目录,可以通过robots.txt文件设置内容来限制神马蜘蛛的访问权限。
robots.txt 必须放在网站root 目录下,文件名必须小写。
具体写法:
1)完全禁止神马蜘蛛爬行:
User-agent: Yisouspider
Disallow: /
2)禁止神马蜘蛛爬取指定目录
User-agent: Yisouspider
Disallow: /update
Disallow: /history
禁止抓取更新和历史目录中的网页
6.神马蜘蛛会造成带宽负担
神马搜索引擎Spider有规范的爬取流程,爬取时也会考虑网站的忙闲时间,不会对网站造成带宽负担。