搜索引擎如何抓取网页(讲讲搜索引擎（百度）的工作原理，第一爬行和抓取)

优采云发布时间: 2021-12-02 01:01

　　每个SEO工作者都必须了解搜索引擎的基本原理。只有充分理解搜索引擎的工作原理，才能从根本上更好地理解SEO技巧。通过了解搜索引擎的原理，可以解决很多问题。今天51商网小编就为大家介绍一下搜索引擎（百度）的工作原理，先爬后爬：

　　搜索引擎的工作过程一般分为三个阶段：

　　爬取和爬取：通过搜索引擎蜘蛛跟踪链接和访问页面，爬取内容，并将其存储在数据库中。

　　预处理：对搜索引擎抓取的数据进行文本提取、中文分词、索引、倒排索引，方便日后调用排名程序。

　　排名：用户输入查询关键字后，排名程序会根据相关性调用索引库数据生成搜索结果页面。

　　一、蜘蛛爬行和爬行是搜索引擎的第一步，采集数据的过程。

　　搜索引擎是自动程序，可以抓取和访问页面以采集数据。此类程序也称为蜘蛛或机器人。搜索引擎蜘蛛访问网站类似于我们的浏览网站，也可以理解为蜘蛛爬行就像是总部发布的情报采集器。搜索引擎蜘蛛访问网站与普通用户基本相同。蜘蛛程序访问页面后，服务器会返回HTML代码。蜘蛛程序会将代码放入和取出原创页面数据库。搜索引擎会同时使用很多蜘蛛程序来提高抓取。获取数据的效率。搜索引擎为了提高抓取和抓取速度，使用多个蜘蛛进行发布和抓取。随着更多的情报人员，采集更多自然信息，工作效率更高。蜘蛛访问网站时，会先访问网站的robots.txt文件。如果robots.txt文件中只有可访问的文件或目录，蜘蛛就不会爬行。其实就是到村子里去守规矩。例如，回族不吃猪肉。虽然是客人，但去回族地区还是要遵守当地的风俗习惯。搜索引擎蜘蛛也有自己的用户代理名称，就像警察工作许可证一样。执行公务时，必须先取下*敏*感*词*。蜘蛛也是如此。站长可以通过日志文件看到蜘蛛的用户代理。准确识别搜索引擎蜘蛛网站是什么。

　　例如：百度蜘蛛：Baiduspider+(+/search/spider.html)

　　360 Spider: Mozilla5.0 (Windows; U; Windows NT 5.1; zh-CN;) Firefox/1.5.0.11;360Spider

　　谷歌蜘蛛：Mozilla5.0（兼容；Googlebot/2.1

　　+/bot.html)

　　谷歌手机：Mozilla5.0（iPhone；CPU iPhone OS 6_0，如 Mac OS X）AppleWebKit/536.26(KHTML,likeGecko)Version/6.0Mobile/10A5376e Safari/853< @6.25（兼容；Googlebot/2.1；+/bot.html）

　　搜狗蜘蛛：搜狗+web+robot+(+http:/docs/help/webmasters.html#07）

　　二、追踪链接

　　为了抓取更多的页面，蜘蛛是通过跟踪网页的链接来抓取的。从一个页面到另一个页面，蜘蛛可以从任何页面抓取 Internet 上的所有页面。但是，网站的组织很复杂，信息量太大。所有蜘蛛爬行也有一定的策略，一般是2深度优先和广度优先。

　　理论上，只要给蜘蛛足够的时间，它就可以抓取所有网页内容。其实在实际工作过程中，带宽和时间并不是无限的，不可能爬满所有页面。最大的搜索引擎只能抓取和收录的一小部分内容。

　　三、吸引蜘蛛

　　可以看出，虽然蜘蛛可以爬爬爬取页面，但其实还有很多页面没有被蜘蛛爬过，所以我们得想办法吸引蜘蛛，让蜘蛛来找我爬爬爬取页面。由于不是所有的页面都可以爬取，所以一定要让蜘蛛爬取重要的页面。哪些页面更重要？有几个影响因素：

　　1. 网站和页面权重

　　一般质量高、资质高的网站被认为具有较高的权重，所以这类网站一般搜索页面会更多，蜘蛛的爬行深度会更高。

　　2. 更新速度

　　一般蜘蛛每次爬完都会保存页面。如果第二次来的时候页面完全没有变化，说明内页没有更新。如果对多次爬取后的页面更新速度有所了解，蜘蛛就不会频繁爬取这个网站；相反，如果每次爬取都有新的内容，蜘蛛就会频繁爬取这个网站的内容，这样，这个网站的新内容会被蜘蛛更快的跟踪到。

　　3. 导入链接

　　不管是外部链接还是内容链接，如果想让蜘蛛爬取，必须要有链接导出，否则蜘蛛就没有机会知道这个页面的存在。高质量的导入链接也会增加页面导出链接的抓取深度。[导入链接：其他网站链接到我的网站；导出链接：我链接到其他人的网站，单向。】

0

2021-12-02

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(讲讲搜索引擎（百度）的工作原理，第一爬行和抓取)

0 个评论

发起人