SEO的原始含义以及现实意义搜索引擎优化(SearchEngine)
优采云 发布时间: 2021-03-29 03:01SEO的原始含义以及现实意义搜索引擎优化(SearchEngine)
SEO的原创含义和现实意义
称为SEO的搜索引擎优化(搜索引擎优化)
含义:一种优化操作,用于增加收录的数量和网页在搜索引擎的自然搜索结果(非商业促销结果)中的排名。
目的:要从搜索引擎中获得更多免费流量,并更好地显示网站图片。
原创含义:找到一种从搜索引擎获取免费流量的方法。
现实意义:从搜索引擎中获取免费流量是您的工作,而提高搜索流量的转化率则与用户体验,操作和其他任务相关。
SEM
搜索引擎营销(搜索引擎营销)简称为SEM
内容:它包括SEO以及付费的商业推广和优化
搜索引擎原理,搜索引擎体系结构
它分为两个部分:主动爬网网页进行一系列处理,然后建立索引,等待用户搜索;分析用户的搜索意图,并呈现用户所需的搜索结果。
步骤:
蜘蛛
蜘蛛或采集器是整个搜索引擎的最上游模块。只有Spider检索到的页面或URL才会被索引和排名。应该注意的是,只要Spider捕获的URL可以参与排名,那么参与排名的内容就不一定是Spider捕获的。
蜘蛛的分类批处理蜘蛛
它具有明显的爬网范围和目标。设置抓取时间限制,抓取次数限制或固定范围内的抓取页面限制等。当蜘蛛的工作达到预设目标时,它将停止。
增量蜘蛛
也可以称为通用采集器。没有固定的目标,范围和时间限制,并且通常会无休止地进行爬网,直到对整个网络的数据进行爬网为止。
垂直蜘蛛
它也可以称为聚焦爬虫。仅对特定主题,内容或行业的网页进行爬网,并且通常只针对特定的有限范围进行渐进式爬网。
蜘蛛的爬行策略
网页分为四类:
获取策略:
深度优先策略和广度优先策略
重要的网页优先级抓取策略和大网站优先级策略
蜘蛛不“爬”
抓取网页后,Spider将首先从网页中提取URL,并记录并计算URL形式,位置,锚文本,分配给当前页面的权重以及其他信息,然后将这些URL合并到抓取中队列中,将根据诸如附加到每个URL的总权重之类的信息来捕获队列中的排序。
蜘蛛对网站的访问没有引荐,而是直接访问。
Spider陷阱:毫无意义的URL组成,导致浪费了Spider爬行资源。
Spider与普通用户之间的区别内容处理,中文分词和索引内容处理
步骤:
中文分词
分词是中文搜索引擎中的一项独特技术。
方法:
1、基于字典匹配。使用搜索引擎自己的字典来拆分Web内容。根据匹配方向的不同,可以分为正向匹配和反向匹配。根据不同长度的优先级匹配的不同,可以分为最长匹配和最短匹配。三种常见的匹配方法是前向最大匹配,反向最大匹配和最小分割。
2、基于统计数据。不仅依赖字典,还分析大量文本样本,然后将出现频率更高的几个单词视为一个单词。基于统计的分词方法在一定程度上解决了更新搜索引擎词典的问题,有助于消除歧义。
索引
前进索引:
关键词从文档ID的内容中细分
文件1
关键词 1、 关键词 2、 关键词 3…[k5] Z
文件2
关键词 3、 关键词 5、 关键词 7…关键词 O
文件3
关键词 6、 关键词 7、 关键词 8 ... 关键词 P
...
...
文件n
关键词 8、 关键词 9、 关键词 10 ... 关键词 M
倒排索引
关键词文件
关键词 1
File 1、 File 2、 File3 ... FileL
关键词 2
文件3、文件4、文件5 ...文件M
关键词 3
文件5、文件6、文件8 ...文件N
...
...
关键词 n
File 9、 File1 0、 File11 ... FileP
倒排索引用于搜索引擎。
倒排索引不仅记录收录响应关键词的文件的ID,而且记录关键词的频率以及每个关键词在文件中的位置。在排名过程中,这些信息将分别加权并应用于最终排名结果。
页面重复数据删除原理
重复数据删除工作通常在分词之后和索引之前(可能在分词之前)进行。搜索引擎将从与页面分离的关键词中提取一些代表性的关键词,然后计算关键词的这些“指纹”。每个网页都有一个特征指纹。当新抓取的网页关键词的指纹与被索引的网页关键词的指纹匹配时,新的网页可能会被搜索引擎视为重复内容,并被丢弃以进行索引。
用户需求分析
1、搜索字词分析
2、搜索意图分析
内容相关性计算
1、 关键词匹配
2、语义分析
有效的索引和缓存机制
为了节省资源并提高响应速度
有效索引:满足热门搜索请求的小型网页索引的集合。
缓存机制:将用户经常搜索的关键词的搜索结果放入缓存中,以便再次搜索关键词时,可以直接从内存中检索搜索结果,而不必从重新搜索和在索引库中排名。减少搜索引擎对数据的重复计算。
反作弊和手动干预反作弊算法黑白名单
根据网站内容的质量,重量和品牌建立白名单,并找出哪些网站明显在作弊并建立黑名单。
白名单中的网站都是健康的网站; 网站收录黑名单链接可能会有一些问题。
作弊特性研究
搜索引擎进行反作弊的主要方法。
一个简单的总结就是向野蛮人学习以发展控制野蛮人的技能
手动干预
手动干预的情况: