搜索引擎优化原理(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)

优采云 发布时间: 2021-09-28 17:13

  搜索引擎优化原理(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)

  搜索引擎的工作原理包括三个过程:网页搜索、信息预处理和索引。

  详情分为:爬取-爬取-处理爬取信息-索引-呈现排名

  一:爬行

  爬取的目的:构建一个待爬取的列表

  谷歌爬虫:ddos 百度爬虫:蜘蛛

  1、发现:

  新 网站

  被动等待:设置Robots.txt文件,放到服务器上,等待爬虫来自己爬取。(谷歌几周,百度一个月到几个月。)

  积极吸引爬虫:写软文有链接,花钱在优质高权重网站,使用高权重博客,在优质论坛发链接。

  

  新内容

  能把首页放在首页,否则尽量放在顶栏(总结:尽量放在权重高的位置)

  横幅图片不如幻灯片,幻灯片不如文字。(总结:文字优先,图片写alt属性)2、爬虫分析:

  查看:网站 日志分析。站长工具可以在360助手日志文件中查看:查看爬取频率。过高会导致服务器崩溃,解决问题:网站突然访问

  先点网站网站收录看看有没有被处罚

  分析日志爬虫并记录IP(蜘蛛、用户)

  统计代码有问题

  3、 爬取策略:

  深度优先:一级列到最后(100万-1000万页) 广度优先:对等列分开采集(100万页) Hybrid:两者混合使用(50-1亿页)

  4、 爬虫抓取障碍物:

  txt 文件设置不正确。服务器本身的问题(频繁的动态IP,不稳定的服务器)URL太长,搜索引擎爬虫懒得直接抓取。爬虫陷阱

  二:爬行

  网页本身必须符合 W3C 标准

  头信息: 状态码:200(正常访问)、404(死链接)、301(永久重定向)、302(临时重定向谨慎)、403(禁止访问)、5xx(数据库问题)编码:建议使用utf-8. gb2312 在国外打开。TDK关键词:标题:尽量靠近。我们希望爬虫进入某个页面,看到我们的主题内容。

  长度:33个汉字文章,25个汉字足够两个英文字符算一个单词

  位置:关键词位置在前面

  频率:不要重复太多(栏目可以强调关键词,最重要的放在前面)

  可读性:考虑用户体验

  原创*敏*感*词*:蜘蛛喜欢新事物

  关键词:首页5-7个,一级栏目5-6个,二级栏目4-5个,列表页3-4个,主题2-3个。Deion:(专栏必须围绕关键词写)

  作用:提高点击率

  密度:3-8%

  长度:80个汉字

  原创性别:有利于收录

  可读性:用户体验考虑

  号召性用语:活动和促销等页面

  3、公共部分:

  搜索引擎不会抓取重复的部分(爬虫更喜欢新鲜的原创东西,重复的内容不利于抓取)

  4、导航:主导航、副导航、左导航、SEO导航(标签)、面包屑导航(不使用JS实现)、

  5、广告:

  Banner图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文字有利于爬虫爬行。

  6、身体:

  关键词:次数合适,密度适中3-8%,位置靠前(站长工具可以查到) Tag:唯一性,整个页面最重要。360微视与关键词、关键词尽量做到高:不是唯一性,次要。可以在属性中添加其他属性:只能用于

  ,意在告诉蜘蛛图片的解释属性:在链接中添加描述性文字,可以为用户提供更清晰的含义。锚文本:(凡事讲究相关性)锚文本必须有相关的关键词和面对面的相关

  三:处理爬取结果(预处理)

  爬取后,爬虫将其压缩成数据包返回数据库

  相关性:因为百度算法语境分析+语义分析,所以网站不要出现无关内容,否则搜索引擎也会略过权限:各种奖项,在线比较,申请百度客服增加信任度。

  注:权限不足造成的影响:同一篇文章文章中,由于信任程度的原因,文章自行转发发布的可能会落后于他人网站 .

  去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,不同的链接不应该出现在同一个页面下。同样的关键词,

  四:创建索引

  搜索引擎索引是反向构建的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线