seo优化搜索引擎工作原理(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)
优采云 发布时间: 2022-02-01 11:26seo优化搜索引擎工作原理(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)
搜索引擎的工作原理包括三个过程:网页搜索、信息预处理和索引。细分为:爬取-爬取-处理爬取信息-建立索引-呈现排名一:爬取目的:建立待爬取列表谷歌爬虫:ddos 百度爬虫:蜘蛛1、发现:新网站@ > 正在等待:设置Robots.txt文件,放到服务器上等待爬虫自行爬取。(谷歌几个星期,百度一个月到几个月。) 爬虫:用链接写软文,花钱买高质量高权重的网站@>,使用高权重博客,并在高质量的论坛中发布外部链接。新的内容可以放在首页,否则尽量放在最上面一栏(总结:争取高权重)banner图片不如slide,slide不如文字。(总结:文字优先,图片写成alt属性) 2、爬虫分析:查看:网站@>日志分析。可以在日志文件中查看站长工具:查看爬取频率。太高会导致服务器崩溃,解决:网站@>先突然访问网站网站@>收录看看有没有惩罚,分析日志爬虫,然后记录IP(蜘蛛,用户)统计 代码有问题3、爬取策略: 深度优先:一级列到最后(100万-1000万页) 广度优先:单独采集peer列(100 万页)混合:两者混合使用(5000 万-1 亿页)4、爬虫爬取障碍:
爬虫陷阱2:爬取网页本身必须符合W3C标准头信息:状态码:200(正常访问)、404(死链接)、301(永久重定向)、302(临时重定向谨慎)、403(访问禁止),5xx(数据库问题)编码:建议使用utf-8.gb2312打开国*敏*感*词*) 功能:提高CTR 密度:3-8% 长度:80个汉字原创可读性:有利于收录可读性:用户体验考虑调用- to-action:活动、促销等页面3、公共部分:搜索引擎不会抓取重复的部分(爬虫更喜欢新鲜的原创东西,重复的内容不利于爬取)4、导航:主导航、辅助导航、左导航、SEO导航(标签页)、面包屑导航(不要用JS 5、广告:Banner图片不如幻灯片,幻灯片不如文字(总结:文字是首选,图片用alt属性写)。文字有利于爬虫爬取。6、文字:关键词:频率合适,密度适中,3-8%,第一位置(金华站长工具可以查出来)标签:唯一性,整个页面的第一重要。包括关键词、关键词标签尽量在前面:不是唯一的,次要的。属性中可以添加其他属性:只使用At
,意在告诉蜘蛛图片的解释属性:在链接中加入描述性文字,可以为用户提供更清晰的含义锚文本:(都注意相关性)锚文本必须相关关键词相关性3 :处理爬取结果(预处理) 爬取后,爬虫将其压缩成数据包返回给数据库。相关性:因为百度算法的上下文分析+语义分析,网站@>不要出现不相关的内容,否则搜索引擎的权威性也会被抛弃:各种奖项、网络评价、申请百度客服以增加信任。注:权限不足造成的影响:同一篇文章文章,由于信任程度,有可能文章 本人转载发表会落后于他人网站@>。去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,同一个关键词的不同链接也不应该出现在同一个页面上。第四:索引 搜索引擎的索引建立在反向首页 URL 76 一级栏目 URL 80 二级栏目 URL 96 URL70 产品 URL 68 百度分词:从前到后、从后到前、统计、第三step 处理爬取结果时,称爬虫对爬取内容进行压缩,将数据包返回给数据库。这时,搜索引擎的索引库就建立起来了。当用户搜索一个词(长尾词或短尾词)时,搜索引擎会根据百度分词规则,首先显示与索引库中完全相同的词。单职业输了网站@>整理。