搜索引擎优化原理(SEO的原始含义以及现实意义搜索引擎优化(SearchEngineOptimization))
优采云 发布时间: 2021-10-15 04:32搜索引擎优化原理(SEO的原始含义以及现实意义搜索引擎优化(SearchEngineOptimization))
SEO的本义和现实意义
搜索引擎优化(Search Engine Optimization)简称SEO
含义:增加收录数量和网页在搜索引擎自然搜索结果(非商业推广结果)中的排名位置的优化动作。
目的:从搜索引擎获取更多免费流量,更好地展示网站的形象。
本义:想办法从搜索引擎中获取免费流量。
现实意义:从搜索引擎拉取免费流量是我的工作,提高搜索流量转化率是与用户体验、运营等工作相关的附加工作。
扫描电镜
搜索引擎营销(Search Engine Marketing)简称SEM
内容:包括SEO和付费商业推广和优化
搜索引擎原理搜索引擎架构
分为两部分:主动抓取网页进行一系列处理然后建立索引,等待用户搜索;分析用户的搜索意图,展示用户需要的搜索结果。
步:
蜘蛛
Spider,或爬虫,是整个搜索引擎的最上游模块。只有被 Spider 检索到的页面或 URL 才会被索引和排名。需要说明的是,只要蜘蛛抓取到的网址可以参与排名,参与排名的内容不一定会被蜘蛛抓取。
蜘蛛的分类批式蜘蛛
具有明显的爬取范围和目标,设置爬取时间限制、爬行次数限制或在固定范围内爬取页面限制等,当蜘蛛的作业到达预设目标时停止。
增量蜘蛛
也可以称为通用爬虫。没有固定的目标、范围和时间限制,一般会无休止地爬取,直到爬完全网的数据。
垂直蜘蛛
它也可以称为聚焦爬虫。只爬取特定主题、内容或行业的网页,一般集中在一定的有限范围内进行增量爬取。
蜘蛛的爬行策略
网页分为四类:
爬行策略:
深度优先策略和广度优先策略
重要页面优先抓取策略和大站优先策略
蜘蛛不会“爬行”
蜘蛛抓取网页后,会先提取网页中的网址,记录并计算网址形式、位置、锚文本、分配给当前页面的权重等信息,然后将这些网址合并到抓取队列中。并根据每个 URL 所附的总权重在抓取队列中进行排序。
Spider对网站的访问没有推荐,都是直接访问。
蜘蛛陷阱:无意义的URL组合,造成蜘蛛爬行资源的浪费。
Spider与普通用户内容处理的区别、中文分词和索引内容处理
步:
中文分词
分词是中文搜索引擎独有的技术。
方法:
1、基于字典匹配。使用搜索引擎自带的字典对网页内容进行拆分。根据匹配方向的不同,分为正向匹配和反向匹配;根据不同长度优先匹配的不同,可以分为最长匹配和最短匹配。三种常见的匹配方法是正向最大匹配、反向最大匹配和最小分割。
2、基于统计。不仅要靠词典,还要分析大量的文本样本,然后把出现频率高的那几个词当作一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题,有助于消除歧义。
指数
远期指数:
关键词 从文件ID的内容中分割出来
文件 1
关键词1、关键词2、关键词3…关键词Z
档案 2
关键词3、关键词5、关键词7...关键词O
文件 3
关键词6、关键词7、关键词8…关键词P
…
…
文件号
关键词8、关键词9、关键词10…关键词M
倒排索引
关键词文件
关键词1
文件1、文件2、文件3...文件L
关键词2
文件3、文件4、文件5...文件M
关键词3
文件5、文件6、文件8...文件N
…
…
关键词n
文件9、文件10、文件11...文件P
倒排索引用于搜索引擎。
倒排索引不仅记录了收录响应关键词的文件的ID,还记录了关键词出现的频率以及每个关键词在文件中的位置。在排名过程中,这些信息会被单独加权并应用于最终的排名结果。
页面去重原理
去重的工作一般会在分词之后,索引之前(或分词之前)进行。搜索引擎会从页面上分离出来的关键词中提取一些有代表性的关键词,然后计算这些关键词的“指纹”。每个网页都会有一个特征指纹。当新爬取的网页的关键词与索引网页的关键词指纹匹配时,新网页可能被搜索引擎视为重复内容。放弃索引。
用户需求分析
1、搜索词分析
2、 搜索意图分析
内容相关性计算
1、关键词匹配
2、语义分析
有效的索引和缓存机制
为了节省资源,提高响应速度
有效索引:满足流行搜索请求的小型网页索引集合。
缓存机制:将用户经常搜索到的关键词的搜索结果放入缓存中,这样当再次搜索到关键词时,可以直接从内存中取出搜索结果,而不用重新搜索和搜索来自索引库的排名。减少搜索引擎对数据的重复计算。
反作弊和人工干预反作弊算法黑白名单
根据网站内容的质量、权重、品牌设立白名单,找出明显作弊的网站并建立黑名单。
白名单中的网站都很好,很健康网站;网站 有黑名单链接可能有问题。
作弊特征研究
现在主要的反作弊方法是搜索引擎进行的。
一个简单的总结就是向蛮人学习培养控制蛮人的技能
人工干预
人工干预的情况: