搜索引擎优化原理(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)
优采云 发布时间: 2021-09-28 17:13搜索引擎优化原理(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)
搜索引擎的工作原理包括三个过程:网页搜索、信息预处理和索引。
详情分为:爬取-爬取-处理爬取信息-索引-呈现排名
一:爬行
爬取的目的:构建一个待爬取的列表
谷歌爬虫:ddos 百度爬虫:蜘蛛
1、发现:
新 网站
被动等待:设置Robots.txt文件,放到服务器上,等待爬虫来自己爬取。(谷歌几周,百度一个月到几个月。)
积极吸引爬虫:写软文有链接,花钱在优质高权重网站,使用高权重博客,在优质论坛发链接。
新内容
能把首页放在首页,否则尽量放在顶栏(总结:尽量放在权重高的位置)
横幅图片不如幻灯片,幻灯片不如文字。(总结:文字优先,图片写alt属性)2、爬虫分析:
查看:网站 日志分析。站长工具可以在360助手日志文件中查看:查看爬取频率。过高会导致服务器崩溃,解决问题:网站突然访问
先点网站网站收录看看有没有被处罚
分析日志爬虫并记录IP(蜘蛛、用户)
统计代码有问题
3、 爬取策略:
深度优先:一级列到最后(100万-1000万页) 广度优先:对等列分开采集(100万页) Hybrid:两者混合使用(50-1亿页)
4、 爬虫抓取障碍物:
txt 文件设置不正确。服务器本身的问题(频繁的动态IP,不稳定的服务器)URL太长,搜索引擎爬虫懒得直接抓取。爬虫陷阱
二:爬行
网页本身必须符合 W3C 标准
头信息: 状态码:200(正常访问)、404(死链接)、301(永久重定向)、302(临时重定向谨慎)、403(禁止访问)、5xx(数据库问题)编码:建议使用utf-8. gb2312 在国外打开。TDK关键词:标题:尽量靠近。我们希望爬虫进入某个页面,看到我们的主题内容。
长度:33个汉字文章,25个汉字足够两个英文字符算一个单词
位置:关键词位置在前面
频率:不要重复太多(栏目可以强调关键词,最重要的放在前面)
可读性:考虑用户体验
原创*敏*感*词*:蜘蛛喜欢新事物
关键词:首页5-7个,一级栏目5-6个,二级栏目4-5个,列表页3-4个,主题2-3个。Deion:(专栏必须围绕关键词写)
作用:提高点击率
密度:3-8%
长度:80个汉字
原创性别:有利于收录
可读性:用户体验考虑
号召性用语:活动和促销等页面
3、公共部分:
搜索引擎不会抓取重复的部分(爬虫更喜欢新鲜的原创东西,重复的内容不利于抓取)
4、导航:主导航、副导航、左导航、SEO导航(标签)、面包屑导航(不使用JS实现)、
5、广告:
Banner图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文字有利于爬虫爬行。
6、身体:
关键词:次数合适,密度适中3-8%,位置靠前(站长工具可以查到) Tag:唯一性,整个页面最重要。360微视与关键词、关键词尽量做到高:不是唯一性,次要。可以在属性中添加其他属性:只能用于
,意在告诉蜘蛛图片的解释属性:在链接中添加描述性文字,可以为用户提供更清晰的含义。锚文本:(凡事讲究相关性)锚文本必须有相关的关键词和面对面的相关
三:处理爬取结果(预处理)
爬取后,爬虫将其压缩成数据包返回数据库
相关性:因为百度算法语境分析+语义分析,所以网站不要出现无关内容,否则搜索引擎也会略过权限:各种奖项,在线比较,申请百度客服增加信任度。
注:权限不足造成的影响:同一篇文章文章中,由于信任程度的原因,文章自行转发发布的可能会落后于他人网站 .
去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,不同的链接不应该出现在同一个页面下。同样的关键词,
四:创建索引
搜索引擎索引是反向构建的