seo优化搜索引擎工作原理(学习SEO系统培训课程的第二课:搜索引擎工作原理的区别)

优采云 发布时间: 2022-01-08 01:04

  seo优化搜索引擎工作原理(学习SEO系统培训课程的第二课:搜索引擎工作原理的区别)

  大家好,我是宜信科技的麒麟老师。今天我们开始学习SEO系统培训课的第二课:搜索引擎的工作原理

  首先说一下麒麟老师开这门课的原因。之所以开设这门课,是因为只有在了解了搜索引擎的基本工作原理之后,才能根据其原理对SEO中各个环节的数据进行优化。否则,我们的工作将无法开展。就像在我们学校学习勾股定理一样,只有通过学习和理解勾股定理是怎么来的,才能在后期很好用,无论是考试还是其他场景。所以这就是了解搜索引擎如何工作所必需的。

  要了解您为什么学习,您需要查看特定搜索引擎的工作原理。

  搜索引擎蜘蛛介绍

  什么是蜘蛛?

  搜索引擎用来抓取网页的程序。

  蜘蛛的分类

  1、批量蜘蛛:有明确的爬取目标,对爬取时间、爬取数据量、爬取范围都有限制。

  2、增量蜘蛛:无休止地爬取整个网络。

  3、垂直蜘蛛:抓取特定主题、特定内容或特定行业的网页。

  蜘蛛与普通用户的区别

  1、spider可以看到网站的源码,但是普通用户看不到

  2、蜘蛛访问网站不缓存,而普通用户有

  3、spider不会主动登录注册网站,普通用户会

  4、 网站 蜘蛛爬取多个动态参数会陷入死循环,普通用户不会

  5、 原则上蜘蛛不会爬行 网站 机器人阻止蜘蛛爬行,但普通用户可以

  

  搜索引擎的工作原理

  第 1 步:抓住

  为什么要爬?

  为什么搜索引擎会有这个爬取链接?这是因为用户在搜索引擎上搜索信息时,搜索引擎需要有大量的内容信息源,而这个源是搜索引擎对互联网上所有可爬取的内容进行编程。爬取采集,保证内容来源。

  爬行策略

  1、深度优先策略

  2、广度优先策略

  3、重要页面优先爬取策略

  4、大站优先爬取策略

  5、再次抓取更新策略

  影响因素:1)更新频率2)网页权重3)网页类型

  第 2 步:预处理

  第一步:确定页面类型

  普通网页?还是PDF?单词?优秀吗?普通网页:文字?图片?视频?

  第二步:提取网页文本信息

  提取网页文本信息,并尝试识别js、flash、图片、视频等内容;提取标题、关键词、描述内容

  第 3 步:去除页面噪音

  即去除无关的广告、导航登录框、版权等信息,只提取网页的主要内容。当然,百度不会丢弃除主要内容以*敏*感*词*绕主要内容的内容板块,如相关推荐等,也将计入本网页。内容,或者作为主要内容的补充,也会影响最终的搜索排名。

  第四步:去除内容中的停用词

  删除内容中的停用词。“的”“地”“啊”“呀”等停用词将被删除。

  经过以上步骤处理后,网页内容基本清理完毕,搜索引擎会将真正有价值的优质内容放入库中。

  第 3 步:索引

  什么是索引

  用户搜索时,如果把搜索引擎本地的内容全部扫描一遍,会大大消耗服务器资源,用户体验不好。为了避免这种情况,出现了索引的概念。

  为了提高效率,搜索引擎采用倒排索引结构,用户搜索关键词1,那么搜索引擎只会计算收录关键词1的文件的相关度和权重;用户搜索“关键词1+关键词2”,搜索引擎会调出收录关键词1和关键词2的文件进行相关性和权重计算。

  第 4 步:排名

  1、内容相关性

  2、重量

  3、用户需求解析

  4、用户体验

  5、垂直学位,专业学位

  ...

  本文为原创文章,标题:[02] 搜索引擎的工作原理是什么?,网址:

  未经许可禁止转载,如需转载请联系邮箱:,否则将追究法律责任!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线