百度spider介绍5.搜索引擎检索系统概述(二)

优采云 发布时间: 2021-05-25 20:02

  百度spider介绍5.搜索引擎检索系统概述(二)

  我最近一直在寻找与SEO相关的材料。我很好奇的是,百度蜘蛛如何抓取网站内容?我在互联网上搜索了一个圈子,发现它们都是从百度搜索学院文章复制的:

  1.搜索引擎抓取系统概述(一)

  2.搜索引擎抓取系统概述(二)

  3.搜索引擎检索系统概述

  4.百度蜘蛛简介

  5.如何识别Baiduspider

  6.只需两个步骤即可正确识别百度蜘蛛

  互联网上最常阅读的句子摘要是:百度蜘蛛的一、抓取,二、存储,三、预处理,四、索引和五、排名。这个描述不是什么大问题,但是也没有用。我只想知道百度蜘蛛如何来到我的网站来抓取内容,抓取的顺序以及抓取的频率?

  一、网络蜘蛛如何来到我的网站;

  Internet上对此问题也有很多讨论。摘要是:1、指向网站的外部链接; 2、进入网站管理员平台以在网站上提交网址; 3、站点地图文件和网站到主页的链接。 Internet上的第一点和第二点有许多相关的描述和实践准则,因此无需重复。我想谈谈我对第3点的理解。首先,您必须为您的站点创建一个站点地图文件,并且该文件必须放置在网站根目录中,并且在没有权限控制的情况下必须可以正常访问。有关特定文档的建立,请参阅每个搜索引擎的指南(例如:百度站点地图文档)。还请注意此文件的URL和更新速率。我将使用一些自己的文件进行解释:

  

https://www.onekbit.com/adminUserAction/toIndex.do

2018-12-23

weekly

1.0

https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp

2018-12-23

weekly

0.8

https://www.onekbit.com/ViewBlog/toBlogIndex.do

2018-12-23

hourly

1.0

https://www.onekbit.com/ViewBlog/blog/BID20181223100027

2018-12-23

hourly

1.0

  在这里,我选择了一些代表性的URL进行显示。我的初始URL很长,并且收录许多参数。当我将其放入xml文件时,它将报告一个错误,并且稍后将全部优化到此简单连接中。坚持编写更具实用价值的文件原创 文章,并每天频繁更新此文件。

  关于此文件的更新,您需要更加注意观察网站上的百度访问日志:

  123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

  这是我的网站上百度蜘蛛的访问日志行。请注意,其中的304代码意味着:304未修改-未按预期修改文档。如果您每天得到的是304,那么对于蜘蛛来说,您就没有获取或获取信息。自然,它的爬网速度会越来越低,并且最终不会出现。因此,请确保定期且定量地更新网站 原创,以便蜘蛛程序每次都能获取信息,从而使蜘蛛程序经常出现。最后一点是网站内部链接必须在所有方向上延伸,以便蜘蛛程序可以将更多链接返回给您网站。

  二、的网络蜘蛛在网站上爬行的顺序

  网络蜘蛛在网站目录中访问的第一个文件应该是robots.txt。通常情况下,应基于此文件是否存在。如果不是,则表示可以对整个网站进行爬网。这取决于要爬网的文件中的特定限制,这是普通搜索引擎的规则。至于在访问robots.txt之后是访问主页还是站点地图文件,是否应该访问第二个站点,这个在线参数有点争议,但是我倾向于认为可以访问第二个站点地图文件。我将使用我的Spider访问日志的最后一段网站从侧面进行证明。 :

  66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793

66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253

66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331

66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258

66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696

66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595

66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710

66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

  我使用nslookup 6 6. 24 9. 6 4. 136的IP:

  

  nslookup命令的结果

  从日志中,第一次访问是robots.txt文件,第二次是站点地图文件,第三次是此站点地图上新的和更改的url,第四次似乎是通过主页进行的。从Spider的IP观察,我猜这是一种专门用于获取Web链接的类型,另一种专门用于抓取Web内容。百度网站管理员中有一张图片描述了百度蜘蛛的工作流程:

  

  

  也可以看到这是先获取url,然后读取内容。

  三、网络蜘蛛到网站的爬网频率

  实际上,上面提到了与网络蜘蛛在网站上的爬网频率有关的因素。我觉得最重要的是定期并定量地更新网站上的原创内容,并提供网站主题相关信息的质量。第二个是做更多的工作来导入链接。

  此文章由onekbit自定义付款导航提供,原创链接:

  百度蜘蛛如何抓取网站内容? _onekbit云笔记

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线