百度spider介绍5.搜索引擎检索系统概述（二）

优采云发布时间: 2021-05-25 20:02

　　我最近一直在寻找与SEO相关的材料。我很好奇的是，百度蜘蛛如何抓取网站内容？我在互联网上搜索了一个圈子，发现它们都是从百度搜索学院文章复制的：

　　1.搜索引擎抓取系统概述（一）

　　2.搜索引擎抓取系统概述（二）

　　3.搜索引擎检索系统概述

　　4.百度蜘蛛简介

　　5.如何识别Baiduspider

　　6.只需两个步骤即可正确识别百度蜘蛛

　　互联网上最常阅读的句子摘要是：百度蜘蛛的一、抓取，二、存储，三、预处理，四、索引和五、排名。这个描述不是什么大问题，但是也没有用。我只想知道百度蜘蛛如何来到我的网站来抓取内容，抓取的顺序以及抓取的频率？

　　一、网络蜘蛛如何来到我的网站；

　　Internet上对此问题也有很多讨论。摘要是：1、指向网站的外部链接； 2、进入网站管理员平台以在网站上提交网址； 3、站点地图文件和网站到主页的链接。 Internet上的第一点和第二点有许多相关的描述和实践准则，因此无需重复。我想谈谈我对第3点的理解。首先，您必须为您的站点创建一个站点地图文件，并且该文件必须放置在网站根目录中，并且在没有权限控制的情况下必须可以正常访问。有关特定文档的建立，请参阅每个搜索引擎的指南（例如：百度站点地图文档）。还请注意此文件的URL和更新速率。我将使用一些自己的文件进行解释：

https://www.onekbit.com/adminUserAction/toIndex.do

2018-12-23

weekly

1.0

https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp

2018-12-23

weekly

0.8

https://www.onekbit.com/ViewBlog/toBlogIndex.do

2018-12-23

hourly

1.0

https://www.onekbit.com/ViewBlog/blog/BID20181223100027

2018-12-23

hourly

1.0

　　在这里，我选择了一些代表性的URL进行显示。我的初始URL很长，并且收录许多参数。当我将其放入xml文件时，它将报告一个错误，并且稍后将全部优化到此简单连接中。坚持编写更具实用价值的文件原创文章，并每天频繁更新此文件。

　　关于此文件的更新，您需要更加注意观察网站上的百度访问日志：

　　123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

　　这是我的网站上百度蜘蛛的访问日志行。请注意，其中的304代码意味着：304未修改-未按预期修改文档。如果您每天得到的是304，那么对于蜘蛛来说，您就没有获取或获取信息。自然，它的爬网速度会越来越低，并且最终不会出现。因此，请确保定期且定量地更新网站原创，以便蜘蛛程序每次都能获取信息，从而使蜘蛛程序经常出现。最后一点是网站内部链接必须在所有方向上延伸，以便蜘蛛程序可以将更多链接返回给您网站。

　　二、的网络蜘蛛在网站上爬行的顺序

　　网络蜘蛛在网站目录中访问的第一个文件应该是robots.txt。通常情况下，应基于此文件是否存在。如果不是，则表示可以对整个网站进行爬网。这取决于要爬网的文件中的特定限制，这是普通搜索引擎的规则。至于在访问robots.txt之后是访问主页还是站点地图文件，是否应该访问第二个站点，这个在线参数有点争议，但是我倾向于认为可以访问第二个站点地图文件。我将使用我的Spider访问日志的最后一段网站从侧面进行证明。：

　　66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793

66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253

66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331

66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258

66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696

66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595

66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710

66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

　　我使用nslookup 6 6. 24 9. 6 4. 136的IP：

　　nslookup命令的结果

　　从日志中，第一次访问是robots.txt文件，第二次是站点地图文件，第三次是此站点地图上新的和更改的url，第四次似乎是通过主页进行的。从Spider的IP观察，我猜这是一种专门用于获取Web链接的类型，另一种专门用于抓取Web内容。百度网站管理员中有一张图片描述了百度蜘蛛的工作流程：

　　也可以看到这是先获取url，然后读取内容。

　　三、网络蜘蛛到网站的爬网频率

　　实际上，上面提到了与网络蜘蛛在网站上的爬网频率有关的因素。我觉得最重要的是定期并定量地更新网站上的原创内容，并提供网站主题相关信息的质量。第二个是做更多的工作来导入链接。

　　此文章由onekbit自定义付款导航提供，原创链接：

　　百度蜘蛛如何抓取网站内容？ _onekbit云笔记

0

2021-05-25

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度spider介绍5.搜索引擎检索系统概述（二）

0 个评论

发起人

AI时代内容工厂

百度spider介绍5.搜索引擎检索系统概述（二）

0 个评论

发起人

相关问题