seo优化搜索引擎工作原理(学习SEO系统培训课程的第二课：搜索引擎工作原理的区别)

优采云发布时间: 2022-01-08 01:04

　　大家好，我是宜信科技的麒麟老师。今天我们开始学习SEO系统培训课的第二课：搜索引擎的工作原理

　　首先说一下麒麟老师开这门课的原因。之所以开设这门课，是因为只有在了解了搜索引擎的基本工作原理之后，才能根据其原理对SEO中各个环节的数据进行优化。否则，我们的工作将无法开展。就像在我们学校学习勾股定理一样，只有通过学习和理解勾股定理是怎么来的，才能在后期很好用，无论是考试还是其他场景。所以这就是了解搜索引擎如何工作所必需的。

　　要了解您为什么学习，您需要查看特定搜索引擎的工作原理。

　　搜索引擎蜘蛛介绍

　　什么是蜘蛛？

　　搜索引擎用来抓取网页的程序。

　　蜘蛛的分类

　　1、批量蜘蛛：有明确的爬取目标，对爬取时间、爬取数据量、爬取范围都有限制。

　　2、增量蜘蛛：无休止地爬取整个网络。

　　3、垂直蜘蛛：抓取特定主题、特定内容或特定行业的网页。

　　蜘蛛与普通用户的区别

　　1、spider可以看到网站的源码，但是普通用户看不到

　　2、蜘蛛访问网站不缓存，而普通用户有

　　3、spider不会主动登录注册网站，普通用户会

　　4、网站蜘蛛爬取多个动态参数会陷入死循环，普通用户不会

　　5、原则上蜘蛛不会爬行网站机器人阻止蜘蛛爬行，但普通用户可以

　　搜索引擎的工作原理

　　第 1 步：抓住

　　为什么要爬？

　　为什么搜索引擎会有这个爬取链接？这是因为用户在搜索引擎上搜索信息时，搜索引擎需要有大量的内容信息源，而这个源是搜索引擎对互联网上所有可爬取的内容进行编程。爬取采集，保证内容来源。

　　爬行策略

　　1、深度优先策略

　　2、广度优先策略

　　3、重要页面优先爬取策略

　　4、大站优先爬取策略

　　5、再次抓取更新策略

　　影响因素：1）更新频率2）网页权重3）网页类型

　　第 2 步：预处理

　　第一步：确定页面类型

　　普通网页？还是PDF？单词？优秀吗？普通网页：文字？图片？视频？

　　第二步：提取网页文本信息

　　提取网页文本信息，并尝试识别js、flash、图片、视频等内容；提取标题、关键词、描述内容

　　第 3 步：去除页面噪音

　　即去除无关的广告、导航登录框、版权等信息，只提取网页的主要内容。当然，百度不会丢弃除主要内容以*敏*感*词*绕主要内容的内容板块，如相关推荐等，也将计入本网页。内容，或者作为主要内容的补充，也会影响最终的搜索排名。

　　第四步：去除内容中的停用词

　　删除内容中的停用词。“的”“地”“啊”“呀”等停用词将被删除。

　　经过以上步骤处理后，网页内容基本清理完毕，搜索引擎会将真正有价值的优质内容放入库中。

　　第 3 步：索引

　　什么是索引

　　用户搜索时，如果把搜索引擎本地的内容全部扫描一遍，会大大消耗服务器资源，用户体验不好。为了避免这种情况，出现了索引的概念。

　　为了提高效率，搜索引擎采用倒排索引结构，用户搜索关键词1，那么搜索引擎只会计算收录关键词1的文件的相关度和权重；用户搜索“关键词1+关键词2”，搜索引擎会调出收录关键词1和关键词2的文件进行相关性和权重计算。

　　第 4 步：排名

　　1、内容相关性

　　2、重量

　　3、用户需求解析

　　4、用户体验

　　5、垂直学位，专业学位

　　...

　　本文为原创文章，标题：[02] 搜索引擎的工作原理是什么？，网址：

　　未经许可禁止转载，如需转载请联系邮箱：，否则将追究法律责任！

0

2022-01-08

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo优化搜索引擎工作原理(学习SEO系统培训课程的第二课：搜索引擎工作原理的区别)

0 个评论

发起人

AI时代内容工厂

seo优化搜索引擎工作原理(学习SEO系统培训课程的第二课：搜索引擎工作原理的区别)

0 个评论

发起人

相关问题