seo优化搜索引擎工作原理( 模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程)
优采云 发布时间: 2021-08-31 05:12seo优化搜索引擎工作原理(
模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程)
简单模拟搜索引擎的工作原理
这里的模拟非常简单和愚蠢,但它可以说明搜索引擎如何处理页面。
第一步:通过蜘蛛抓取页面;
什么是蜘蛛?如何抓取页面?以文本形式下载并发送到服务器。
第2步:网页文件处理
什么是蜘蛛? Googlebot、baiduspider、Yahoo、Slurp 和 Msnbot 如何抓取页面?以文本形式下载并发送到服务器。可能会做一些预处理,比如压缩等,可能会阻碍蜘蛛的爬行行为:跳跃、识别分辨率。
首先过滤所有的 HTML 标签、CSS 样式表和 JS 代码
蜘蛛模拟工具:
蜘蛛模拟工具:
第 3 步:识别文本内容
通过分析过滤后的文字内容,可以判断网页的核心内容。如图:
点击百度就会知道搜索设置,登录,注册,新闻,网页,贴吧,知道音乐,图片,视频,地图输入法,手写,拼音,关闭百科文库hao123 |推广搜索广告牌 关于百度 关于百度 ©2013 百度*敏*感*词*
判断结论:此页面与关键词“百度”密切相关。
第 4 步:执行加权和评分技术
假设关键词重复一次后得1分,百度首页的得分为“4”。当然,搜索引擎真正的计算过程是很负责的,涉及计算的参数有上百个。 “所有搜索引擎的核心是外链技术和关键词密度技术。”
第五步:保存到排名数据库
经过上面的分析,一个页面就可以存入排名数据库(也叫索引数据库)。百度主页可能会放入一个名为“百度”的小型数据库中。未来用户搜索“百度”时,会打开“百度”小数据库,
然后按照分数排列,以HTML格式显示。