seo攻略:搜索引擎优化策略与实战案例详解(SEO搜索引擎优化：技巧、策略与实战案例（一）)

优采云发布时间: 2022-03-25 02:12

　　最近看了4本关于推广的书，印象最深的有两本书，一本是《走进搜索引擎》，另一本是《SEO搜索引擎优化：技巧、策略与实战案例》，这两本书的特点就是前者用21万字详细讲解搜索引擎原理，后者穿插一些实际案例讲解具体优化技术。所以在一定程度上，看了两本书，如果你还是不知道怎么做搜索引擎优化，或者你还在被砍，那对不起，你可以远离这个行业。

　　但是第一本书唯一的缺点就是有一定的专业性，对小白新手真的不是很友好，因为这本书的作者是医生。书中穿插了很多公式，所以降维命中相当厉害。

　　本书将搜索引擎分为4个部分，下载系统、分析系统、索引系统、查询系统。还是老规矩，我分4个简单的部分做个总结。

　　一、下载系统

　　其实下载系统其实就是我们所说的下载各类页面。说到下载系统，爬虫系统肯定少不了。这部分主要讲他如何抓取页面以及抓取策略的介绍。我直接举个例子，在下载系统中，根据域名分解爬取任务的工作是由一个调度器的模块来处理的。通过域名分解，将不同的网页分派给不同的爬虫进行爬取。

　　(1）调度程序通过更新规则从 URL 请求一个 URL 获取任务。

　　(2）调度器计算出URL，分配给0号爬虫去爬取。

　　（3）爬虫0实际爬取的网页存放在Page库中。

　　（4）Crawler 0 在从抓取的网页中提取其他链接后反馈给调度程序。

　　(5）调度器判断网页的类型，设置初始更新时间等，存入URL库，继续传输(1)，一次又一次。

　　二、分析系统

　　分析系统实际上是信息提取和网页信息结构化。这句话怎么理解？实际上，爬虫对爬取的url中的页面信息进行分析处理。在这一部分中，我们需要注意称为标签树的东西。在这个过程中，需要标签分析堆栈。在这个过程中，实际上是提取了代码块中的文本。这是一个例子：

　　测试 1

　　测试 2

　　测试 3

　　...

　　分析系统只将Test 1、Test 2、Test 3等文本信息从栈中提取到栈中，那么如何判断是哪些文本信息呢？这里我们需要使用投票的方式通过不同的规则来得分。分数较高的部分是文本部分。怎么理解？例如，如果我们得到一个文本长度小于 10 个词的文本块，则得分为 0，10-50 个词得分 5，以此类推。同理，文本块的文本会在左边位置加5分，右边加0分，中间加10分。也就是说，分数高的会被判定为文字，分数低的会被判定为广告或无效信息。，那么百度在判断内容的时候，也是根据这些内容来判断的。

　　说到分析，肯定有页面检查。这也是决定页面是否为收录的关键因素。l-Match算法和Shingle算法是这部分实现方法中使用最多的。

　　两种算法的区别在于前者通过排序去掉高频词和低频词得到字符串，而使用签名算法得到字符串的签名。如果存在其他签名值相同的文档，则判断为相似。

　　后者使用tile抽取将一个文档转化为一组字符串（每个元素都是一个Shingle），所以判断两个文档的相似度就转化为字符串集合的相似度。（我知道你不明白，我举个例子）

　　例如，这里有两句话：

　　第一段：据新浪体育报道，中国足球队在米露的带领下，首次晋级世界杯决赛圈。第二段：米路带领中国足球队首次打进世界杯决赛，搜狐体育

　　l-匹配算法

　　瓦算法

　　一般来说，网页重复检查至少需要以下 3 个主要步骤：

　　(1）特征提取

　　(2）相似度计算和评估类似。

　　(3）删除重复

　　PS：判断内容原创还是根据时间戳和爬虫爬取页面的顺序，也就是说爬虫先爬到的，时间越早，基本判断是原创。

　　到达这一步后，会进行分词。其实市面上有很多分词软件。我不会在这里介绍它。分词基本上是基于字典分词和统计分词。我在这里举个例子：

　　进入搜索引擎

　　分词后的最终实际结果是走进/搜索引擎，不要问为什么？

　　这里提到了一个 PR 模型，也就是我们常说的网络投票。从实际应用来看，我们需要对页面的内部链接进行处理。

　　综上所述：

　　三、索引系统

　　索引系统是一个复杂的工作流程，涉及到倒排索引、倒排表、临时倒排文件和最终倒排文件。在这里，我们将讨论系统如何将页面处理为文档编号，然后传递一个 Series 计算形式的正向和反向列表。

　　四、查询系统

　　四个系统中，只有查询系统面向用户。对于信息的量化，我们需要知道“信息后代”（shang）的概念。另外，用户提交查询，但是对于搜索引擎来说，需要处理一个搜索词。这部分将使用布尔检索模型。举个例子：比如用户搜索引擎系统这个词构成，那么下面有3段：

　　(1）在传统的搜索引擎架构中，搜索引擎由四个系统组成，分别是下载系统、分析系统、索引系统和查询系统。

　　（2）小挖在机械行业中一般简称为小挖。小挖由5个系统组成，分别是......。要详细了解这些术语，可以使用谷歌搜索引擎搜索。

　　(3）搜索引擎有4个主要功能模块，分别是下载系统、分析系统、索引系统和查询系统。这4个系统是搜索引擎的核心，其中查询系统是只有一个搜索引擎——直接面向客户的系统。

　　很明显，用户查询的是搜索引擎系统的结构，而百度是检索搜索引擎和系统的结构，那么上面三个页面中的1、2就收录了这两个词，尤其是第一个，直观地说，1相关性较好，但布尔检索模型只处理是和否的问题，而不是好的和坏的问题。

　　因此，引入了向量空间模型。该模型计算文本的向量相似度。向量化过程根据关键词的维度对文档进行向量化。比如你走进一个搜索引擎，学习搜索引擎，那么分词后的结果就是，走进（1），学习（1），搜索引擎（2），那么这个短句的向量化计算就是 (2,1,1）。

　　根据刚才的搜索结果，其实是搜索不到(3）的，所以需要经典的TF/IDF权重计算方法。(TF/IDF参考相关资料)

　　那么页面是如何排序的呢？该算法通过计算文档向量与查询向量的夹角余弦得到向量相似度（一个可量化的值），并根据这个数的大小关系进行排序。

　　由于搜索结果海量，用户几乎没有耐心阅读所有搜索结果。一项调查显示，大多数用户在使用搜索引擎进行查询时，在得到搜索结果页面后不会拒绝该页面，而只会关注搜索结果的第一页。

　　综上所述：

　　查询系统中所谓的页面排序，其实是基于相关性、页面重要性等因素。这就是为什么有人认为同样是一个文章，为什么别人的页面排名比你的高，原因是因为别人的页面被投票的频率更高。（本页投票可能是外链投票，也可能是内链投票）

　　读完这两本书，感触颇深。这两本书的含金量远高于其他SEO书籍。至少在我目前读过的书中，我还没有找到与这两本书相媲美的东西。

　　相信业内从业者，除了采集和quicksort，书中的很多东西恐怕很多人都不知道或者不熟悉，所以如果你对这方面感兴趣的话，建议你好好看看在它上面，至少可以避免被割韭菜，也可以变相提高知识。

　　比如花几千块钱学TDK？还是花几千学个基础的东西，拉下来，这TM是在割韭菜。

0

2022-03-25

seo攻略:搜索引擎优化策略与实战案例详解

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo攻略:搜索引擎优化策略与实战案例详解(SEO搜索引擎优化：技巧、策略与实战案例（一）)

0 个评论

发起人