百度搜索引擎优化原理( 大体的工作原理是什么？蜘蛛的爬行策略详解)

优采云发布时间: 2021-09-11 17:00

　　百度搜索引擎优化原理(

大体的工作原理是什么？蜘蛛的爬行策略详解)

　　随着互联网的不断发展，搜索引擎的出现在所难免。就像图书馆里的书一样，如果馆藏中的文件和书籍太多，就很难找到它们。因此，需要加强管理和统计。事实上，搜索很大程度上源于传统的文档检索技术。

　　作为SEOer的你应该知道，搜索引擎的工作原理非常复杂，其工作过程大致分为三个阶段：

　　(1）crawling and crawling：搜索引擎蜘蛛通过跟踪链接访问网页，获取页面的HTML代码，并存入数据库；

　　(2）预处理：索引程序对抓取的数据进行文本提取、中文分词、索引等处理，为排序程序调用做准备；

　　（3）ranking：用户输入关键词后，排名程序调用数据库，计算其相关性，然后生成一定格式的搜索结果页面。

　　由于爬取和爬取是搜索引擎的第一步，主要完成采集数据的任务；但是，搜索引擎用来抓取和访问页面的程序统称为蜘蛛或机器人；为了在 Internet 页面上爬取更多，蜘蛛会跟随页面上的链接从一个页面爬到下一个或多个页面。就像蜘蛛这个词的意思一样，整个互联网是由许多相互联系的网站和页面组成的；因此，蜘蛛从任何一个页面开始，你可以按照链接爬取网站上的所有页面。其中，常见的蜘蛛爬取策略有两种：深度优化和广度优化，如图1所示。做过优化的人都知道，用户体验尤为重要，蜘蛛的吸引力是一样的；无论是爬取还是抓取页面，它所期望的还有网站的新鲜度、内容的更新频率、网站与页面的权重、导入链接的数量等地址库搜索引擎也是我们需要了解的。地址库的来源可以分为三种：手动录入*敏*感*词*网站、蜘蛛自动抓取页面、站长通过搜索引擎页面提交表单输入网址，希望网站排名好，其中蜘蛛自动抓取页面是最好的方法。

　　图1 Spider的爬取策略

　　想必，蜘蛛爬行爬行之后，下一步就是在后台完成预处理，这是一个用户在搜索时感觉不到的过程。现在搜索引擎仍然基于文本内容。蜘蛛抓取页面中的 HTML 代码以提取文本。这个可以看出来，不管是META标签、图片、FLASH文件，还是链接锚文本。文字是用来描述的，让蜘蛛可以读取对应的文字来抓取图片等等。因此，搜索引擎在存储和处理页面时是基于单词的。因此，中文分词的基本方法有两种：一种是基于词典匹配，一种是基于统计。百度搜索很大程度上是基于这两点。比谷歌搜索好多了。搜索引擎在索引页面时会删除一些停用词。停用词包括助词de、de、land、感叹词ah、ha、ah、副词或介词、have、but；从而减少冗余计算量。下一步是消除噪音和重复数据删除。网站上的大量重复块往往是噪音；同一篇文章文章重复出现在不同的网站或同一个网站，搜索引擎不喜欢重复的内容。

　　作为排名的最后一步，搜索引擎自动抓取页面后，索引程序计算倒排索引，搜索引擎可以处理用户搜索。可以简单的理解为其他工序与预处理相反；预处理是如何访问文本、分词和索引，排名是如何调用数据库数据来计算排名。

0

2021-09-11

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化原理( 大体的工作原理是什么？蜘蛛的爬行策略详解)

0 个评论

发起人