搜索引擎工作原理简单模拟(上海易闻SEO培训班)
优采云 发布时间: 2021-05-08 01:43搜索引擎工作原理简单模拟(上海易闻SEO培训班)
简单模拟搜索引擎的工作原理上海益文SEO培训课程前言这里的模拟非常简单和愚蠢,但可以说明搜索引擎如何处理页面。第一步:通过蜘蛛抓取页面;什么是蜘蛛?如何抓取页面?以文本形式下载并发送到服务器。第一步:使用蜘蛛抓取页面。什么是蜘蛛? Googlebot,baiduspider,Yahoo,Slurp和Msnbot如何抓取页面?以文本形式下载并发送到服务器。可能需要进行一些预处理,例如压缩和其他可能阻碍蜘蛛爬网的行为:跳转,确定分辨率。步骤2:网页文件处理首先过滤所有HTML标记,CSS样式表和JS代码工具:/ Seo / Spider .asp的第三步:确定文本内容。通过分析过滤后的文本内容来确定网页的核心内容。步骤4:执行加权和评分技术。假设重复关键词一次可获得1分,则百度首页上的得分为“ 4”。当然,搜索引擎的实际计算过程是非常负责的,计算中涉及数百个参数。呀!工程师告诉我:“所有搜索引擎的核心都是外部链接技术和关键词密度技术”。第5步:存储在排名数据库中经过以上各种分析,页面可以存储在排名数据库中(也称为索引数据库)。可以将百度首页放入一个名为“百度”的小型数据库中。将来,当用户搜索“百度”时,他们将打开“百度”小型数据库,然后根据其得分进行排列并以HTML显示。 * *单击百度,您将知道新闻页面,将其张贴,了解MP3图片以帮助高级空间|更多>>将百度设为首页企业推广|搜索风云列表|关于百度|关于百度?2007百度*敏*感*词*京ICP证030173号百度首页经过处理后的样子:单击百度,您就可以了会知道新闻页面,发布它,知道MP3图片,帮助高级空间|更多>>将百度设为首页企业推广|查找风云列表|关于百度|关于百度?通过对以上文字的分析,必读的北京ICP 030173号搜索引擎程序,发现以下信息:总共95个字符;其中56个汉字。 “百度”出现了4次,共8个汉字,占16个字符。 8÷56≈0. 14≈14%16÷95≈0.16≈16%判断结论:此页面与关键词“百度”密切相关。搜索引擎的处理过程:就像将经过处理的采摘草药放入相应的抽屉中一样。 ---结束--- *