seo攻略:搜索引擎优化策略与实战案例详解(SEO搜索引擎优化:技巧、策略与实战案例(一))

优采云 发布时间: 2022-03-25 02:12

  seo攻略:搜索引擎优化策略与实战案例详解(SEO搜索引擎优化:技巧、策略与实战案例(一))

  最近看了4本关于推广的书,印象最深的有两本书,一本是《走进搜索引擎》,另一本是《SEO搜索引擎优化:技巧、策略与实战案例》,这两本书的特点就是前者用21万字详细讲解搜索引擎原理,后者穿插一些实际案例讲解具体优化技术。所以在一定程度上,看了两本书,如果你还是不知道怎么做搜索引擎优化,或者你还在被砍,那对不起,你可以远离这个行业。

  但是第一本书唯一的缺点就是有一定的专业性,对小白新手真的不是很友好,因为这本书的作者是医生。书中穿插了很多公式,所以降维命中相当厉害。

  本书将搜索引擎分为4个部分,下载系统、分析系统、索引系统、查询系统。还是老规矩,我分4个简单的部分做个总结。

  一、下载系统

  其实下载系统其实就是我们所说的下载各类页面。说到下载系统,爬虫系统肯定少不了。这部分主要讲他如何抓取页面以及抓取策略的介绍。我直接举个例子,在下载系统中,根据域名分解爬取任务的工作是由一个调度器的模块来处理的。通过域名分解,将不同的网页分派给不同的爬虫进行爬取。

  (1)调度程序通过更新规则从 URL 请求一个 URL 获取任务。

  (2)调度器计算出URL,分配给0号爬虫去爬取。

  (3)爬虫0实际爬取的网页存放在Page库中。

  (4)Crawler 0 在从抓取的网页中提取其他链接后反馈给调度程序。

  (5)调度器判断网页的类型,设置初始更新时间等,存入URL库,继续传输(1),一次又一次。

  

  二、分析系统

  分析系统实际上是信息提取和网页信息结构化。这句话怎么理解?实际上,爬虫对爬取的url中的页面信息进行分析处理。在这一部分中,我们需要注意称为标签树的东西。在这个过程中,需要标签分析堆栈。在这个过程中,实际上是提取了代码块中的文本。这是一个例子:

  测试 1

  测试 2

  测试 3

  ...

  分析系统只将Test 1、Test 2、Test 3等文本信息从栈中提取到栈中,那么如何判断是哪些文本信息呢?这里我们需要使用投票的方式通过不同的规则来得分。分数较高的部分是文本部分。怎么理解?例如,如果我们得到一个文本长度小于 10 个词的文本块,则得分为 0,10-50 个词得分 5,以此类推。同理,文本块的文本会在左边位置加5分,右边加0分,中间加10分。也就是说,分数高的会被判定为文字,分数低的会被判定为广告或无效信息。,那么百度在判断内容的时候,也是根据这些内容来判断的。

  说到分析,肯定有页面检查。这也是决定页面是否为收录的关键因素。l-Match算法和Shingle算法是这部分实现方法中使用最多的。

  两种算法的区别在于前者通过排序去掉高频词和低频词得到字符串,而使用签名算法得到字符串的签名。如果存在其他签名值相同的文档,则判断为相似。

  后者使用tile抽取将一个文档转化为一组字符串(每个元素都是一个Shingle),所以判断两个文档的相似度就转化为字符串集合的相似度。(我知道你不明白,我举个例子)

  例如,这里有两句话:

  第一段:据新浪体育报道,中国足球队在米露的带领下,首次晋级世界杯决赛圈。第二段:米路带领中国足球队首次打进世界杯决赛,搜狐体育

  l-匹配算法

  

  瓦算法

  

  一般来说,网页重复检查至少需要以下 3 个主要步骤:

  (1)特征提取

  (2)相似度计算和评估类似。

  (3)删除重复

  PS:判断内容原创还是根据时间戳和爬虫爬取页面的顺序,也就是说爬虫先爬到的,时间越早,基本判断是原创。

  到达这一步后,会进行分词。其实市面上有很多分词软件。我不会在这里介绍它。分词基本上是基于字典分词和统计分词。我在这里举个例子:

  进入搜索引擎

  分词后的最终实际结果是走进/搜索引擎,不要问为什么?

  这里提到了一个 PR 模型,也就是我们常说的网络投票。从实际应用来看,我们需要对页面的内部链接进行处理。

  综上所述:

  

  三、索引系统

  索引系统是一个复杂的工作流程,涉及到倒排索引、倒排表、临时倒排文件和最终倒排文件。在这里,我们将讨论系统如何将页面处理为文档编号,然后传递一个 Series 计算形式的正向和反向列表。

  四、查询系统

  四个系统中,只有查询系统面向用户。对于信息的量化,我们需要知道“信息后代”(shang)的概念。另外,用户提交查询,但是对于搜索引擎来说,需要处理一个搜索词。这部分将使用布尔检索模型。举个例子:比如用户搜索引擎系统这个词构成,那么下面有3段:

  (1)在传统的搜索引擎架构中,搜索引擎由四个系统组成,分别是下载系统、分析系统、索引系统和查询系统。

  (2)小挖在机械行业中一般简称为小挖。小挖由5个系统组成,分别是......。要详细了解这些术语,可以使用谷歌搜索引擎搜索。

  (3)搜索引擎有4个主要功能模块,分别是下载系统、分析系统、索引系统和查询系统。这4个系统是搜索引擎的核心,其中查询系统是只有一个搜索引擎——直接面向客户的系统。

  很明显,用户查询的是搜索引擎系统的结构,而百度是检索搜索引擎和系统的结构,那么上面三个页面中的1、2就收录了这两个词,尤其是第一个,直观地说,1相关性较好,但布尔检索模型只处理是和否的问题,而不是好的和坏的问题。

  因此,引入了向量空间模型。该模型计算文本的向量相似度。向量化过程根据关键词的维度对文档进行向量化。比如你走进一个搜索引擎,学习搜索引擎,那么分词后的结果就是,走进(1),学习(1),搜索引擎(2),那么这个短句的向量化计算就是 (2,1,1) 。

  根据刚才的搜索结果,其实是搜索不到(3)的,所以需要经典的TF/IDF权重计算方法。(TF/IDF参考相关资料)

  那么页面是如何排序的呢?该算法通过计算文档向量与查询向量的夹角余弦得到向量相似度(一个可量化的值),并根据这个数的大小关系进行排序。

  由于搜索结果海量,用户几乎没有耐心阅读所有搜索结果。一项调查显示,大多数用户在使用搜索引擎进行查询时,在得到搜索结果页面后不会拒绝该页面,而只会关注搜索结果的第一页。

  综上所述:

  查询系统中所谓的页面排序,其实是基于相关性、页面重要性等因素。这就是为什么有人认为同样是一个文章,为什么别人的页面排名比你的高,原因是因为别人的页面被投票的频率更高。(本页投票可能是外链投票,也可能是内链投票)

  读完这两本书,感触颇深。这两本书的含金量远高于其他SEO书籍。至少在我目前读过的书中,我还没有找到与这两本书相媲美的东西。

  相信业内从业者,除了采集和quicksort,书中的很多东西恐怕很多人都不知道或者不熟悉,所以如果你对这方面感兴趣的话,建议你好好看看在它上面,至少可以避免被割韭菜,也可以变相提高知识。

  比如花几千块钱学TDK?还是花几千学个基础的东西,拉下来,这TM是在割韭菜。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线