如何做好网站搜索引擎优化(搜索引擎搜索引擎的工作原理是什么？什么是搜索引擎？)

　　一、什么是搜索引擎

　　搜索引擎是帮助用户搜索他们需要的内容的计算机程序。换句话说，搜索引擎将计算机中存储的信息与用户的信息需求进行匹配，并显示匹配结果。

　　例如：如果您想购买iPhone12，想知道“iPhone12”的配置或价格，在浏览器搜索框中输入“iPhone12”，点击搜索按钮。这里关键词“iPhone12”就是你的信息需求。在浏览器显示搜索结果的十分之一秒内，它的程序根据关键字搜索庞大的数据库，最终计算出所有关于“iPhone12”的网页。

　　二、搜索引擎的工作原理

　　在搜索引擎网站的后端，会有一个非常大的数据库，里面存储了大量的关键词，每个关键词对应了很多个URL，称为“搜索引擎蜘蛛”或“网络爬虫”。该程序是从庞大的互联网上一点一点地下载和采集的。随着各种网站的出现，这些勤劳的“蜘蛛”每天都在互联网上爬行，从一个链接到另一个链接，下载内容，分析提炼，找到关键词，如果“蜘蛛”认为关键词不在数据库中，对用户有用，会存储在后台数据库中。反之，如果“蜘蛛”认为是垃圾邮件或重复信息，直接丢弃，继续爬行，找到最新的有用信息，保存并提供给用户搜索。当用户搜索时，可以检索到与关键字相关的网址，并显示给访问者。

　　一个关键词对使用了多个 URL，因此存在排序问题，与关键词匹配度最高的对应 URL 将排在第一位。在“蜘蛛”抓取网页内容并提炼关键词的过程中，有一个问题：“蜘蛛”能看懂吗？如果网站的内容是flash、js等，那就是看不懂、糊涂了，即使关键词再贴切也无济于事。相应地，如果网站的内容能够被搜索引擎识别，搜索引擎就会增加网站的权重，增加网站的友好度。这样的过程称为SEO。

　　三、搜索引擎工作流程（三个阶段）

　　搜索引擎的工作过程大致可以分为三个阶段。

　　【第一阶段】爬行爬行：搜索引擎蜘蛛通过跟踪链接访问网页，获取网页的HTML代码并存入数据库。

　　1、什么是蜘蛛？

　　抓取网页数据时称为执行器。事实上，它是一个计算机程序，因为这个工作过程与现实中的蜘蛛非常相似。业界称之为搜索引擎蜘蛛！蜘蛛程序向网站页面发送访问请求，服务器将返回HTML代码，蜘蛛程序将接收到的代码存储到原创页面的数据库中。蜘蛛访问任何网站时，都会先访问网站根目录下的robots.txt文件！如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守这些禁令，不会抓取那些被禁止的网址。

　　2、如何追踪链接？

　　为了在互联网上抓取尽可能多的页面，搜索引擎蜘蛛会跟随网站页面上的链接，从一页爬到下一页。这个过程就像蜘蛛在蜘蛛网上爬行一样，也是一个搜索引擎。蜘蛛名称的由来。整个互联网由链接的网站页面组成。理论上，只要给蜘蛛足够的时间，它总是可以抓取互联网上的所有页面链接。但实际情况并非如此。由于网站和链接结构极其复杂，蜘蛛需要采用一定的爬取策略来遍历互联网上的所有页面。

　　3、爬取策略

　　根据网站的不同链接结构，我们可以将蜘蛛爬取策略分为两种：深度爬行和广度爬行

　　在实际工作中，蜘蛛的带宽资源和时间都是有限的，不可能爬满所有页面。深度优先和广度优先通常是混用的，这样可以同时处理尽可能多的网站（广度优先）和网站（深度优先）的部分内页

　　4、吸引蜘蛛

　　根据上面的介绍，蜘蛛不可能收录所有页面，所以SEO就是用各种手段吸引蜘蛛去爬收录自己网站更多的页面。由于不可能所有页面都是收录，蜘蛛必须尝试抓取重要页面。那么蜘蛛是如何确定哪些页面更重要的呢？有几个影响因素：

　　5、地址库

　　搜索引擎会建立一个地址库来存储页面，以避免搜索引擎蜘蛛重复抓取和抓取网址。该地址库收录已爬取的页面和被发现后未爬取的页面。这个地址库中的URL一定要被蜘蛛爬取吗？答案是否定的。有人工输入的*敏*感*词*网站地址，也有部分站长通过搜索引擎网页提交网址（一般个人博客或网站采用这种方式）。蜘蛛爬取页面后，解析出URL，与地址库进行对比。如果不存在，存入

　　6、文件存储

　　搜索引擎蜘蛛抓取的数据存储在这个原创页面数据库中，其中的页面数据与用户浏览器获取的HTML完全相同。每个 URL 都有唯一的文件编号

　　7、检测复制内容

　　爬虫在爬取文件的时候也会进行一定程度的复制内容检测！当遇到一个网站权重低，抄袭抄袭内容多的时候，蜘蛛很可能会停止爬行。这就是为什么有些站长在日志文件中发现了蜘蛛，但页面从来没有真正收录的原因。

　　【第二阶段】预处理：索引程序对抓取到的网页数据进行文本提取、中文分词、索引等处理，为排名程序调用做准备。

　　由于搜索引擎数据库中的数据太多，用户在搜索框中输入关键词后是无法返回排名结果的，但是我们经常会觉得速度很快。事实上，关键作用是预处理。这个过程和爬虫过程一样，都是在后台提前完成的。有些人认为预处理就是索引，但事实并非如此。索引只是预处理的一个主要步骤。那么什么是索引？索引是一种用于对数据库列表中一列或多列的值进行排序的结构。在索引之前有五个任务需要完成：

　　1、提取文本

　　搜索引擎首先需要从HTML文件中去除HTML格式标签和javascript程序，提取出网站页面的文本内容，可用于排名处理。除了提取可见文本外，搜索引擎还可以提出以下不可见文本内容，例如：meta标签中的文本内容、图片替代文本、Flash文件的替代文本、链接锚文本等。

　　2、中文分词

　　在汉语句子中，词与词之间没有分隔符，句子中的词都是连在一起的。所以，这时候搜索引擎首先要区分哪些字符构成一个词，哪些字符本身就是一个词。例如：“波司登羽绒服”分为“波司登”和“羽绒服”两个词。中文分词一般有两种方法：

　　基于词典匹配和统计的分词方法各有优缺点，实际使用中的分词系统褒贬不一。

　　这两种方法快速高效，可以识别新词和新词，消除歧义。)

　　3、去阻止这个词

　　什么是停用词？页面内容中出现频繁但对内容没有影响的一些词。例如：“的”、“地”、“得”等助词；“啊”、“哈”、“啊”等感叹词；“因此”、“以”、“阙”等介词。英语中常见的停用词，例如“the”和“of”。这些词被称为停用词，因为它们对页面的主要含义没有影响。搜索引擎停用词有两个主要目的：

　　4、去除噪音

　　5、去重（冲）

　　相同的文章经常重复出现在不同的网站上，相同的网站出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时，如果在前两页看到来自不同网站的同一篇文章文章，用户体验太差了，虽然都是内容相关的。搜索引擎希望在同一个文章中只返回一篇文章，因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”

　　经过以上五个步骤，搜索引擎将能够获得能够反映页面主要内容的独特的、基于词的内容。然后搜索引擎程序通过分词程序将上面提取的关键词进行分割，将每个网站页面转换成关键词的集合，并记录每个关键词的频率，关键词在页面上出现的次数、格式（如标题标签、粗体、H标签、锚文本等）位置（段落），这些都以权重的形式记录下来，然后放在一个地方，这个地方就是专门为这些复合词放置的词汇结构——索引库，也叫“词汇索引表”

　　6、远期指数

　　页面转换为关键词的集合，同时页面上每个关键词的频率和输出。

　　次数、格式（如出现在标题标签、粗体、H 标签、锚文本等）、位置（如页面第一段）

　　文本等）。这样每个页面都可以记录为一串关键词集合，其中每个关键词的词频

　　, 格式、位置和其他重量信息也被记录下来。每个文件夹对应一个ID，文件内容用一组关键词表示。在搜索引擎的索引库中，此时关键词还没有转换成关键词 ID，这个数据结构叫做正向索引

　　7、倒排索引

　　因为前向索引不能直接用于排名，比如用户搜索某个关键词2，如果只从前向索引中，只能找到收录关键词的文件夹，而排名实际上无法返回。. 此时将使用倒排索引。在倒排索引中，关键词成为主键。每个关键词对应一系列文件，每个文件都有关键词需要搜索，这样用户在搜索某个关键词，排序程序就可以找到对应的文件到倒排列表中的这个关键词

　　8、特殊文件的处理

　　除了 HTML 文件，搜索引擎通常可以抓取并索引多种基于文本的文件类型，例如

　　PDF、Word、WPS、XLS、PPT、TXT文件等，我们经常在搜索结果中看到这些

　　文件类型。但是，当前的搜索引擎无法处理图像、视频和 Flash 等非文本内容，也不能

　　执行脚本和程序。尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展，但离通过读取图片、视频和Flash内容直接返回结果的目标还差得很远。图片和视频内容的排名往往以与其相关的文字内容为依据。所以在SEO中，你网站尽量少用这些

　　9、链接关系计算

　　搜索引擎抓取页面后，还必须提前计算哪些链接指向页面上的哪些页面。每个页面导入的链接是什么，链接中使用了哪些锚文本？正是这些复杂的链接指向关系，形成了网站和页面的链接权重。

　　【第三阶段】排名：用户输入关键词后，排名程序调用索引库数据，计算相关性，然后生成一定格式的搜索结果页面。

　　1、搜索词处理

　　2、文件匹配

　　倒排索引快速匹配文件。如果用户搜索“关键词2关键词7”，则排名程序只需要在倒排索引中找到“关键词2”和“关键词7”与这些两个词，您可以找到收录这两个词的所有页面。经过简单的计算，我们可以找到同时收录“关键词2”和“关键词7”的所有页面：文件1和文件6

　　3、初始子集选择

　　互联网上有几万个页面，搜索某个关键词就会有几千万个页面。如果搜索引擎上来直接计算页面的相关性，简直太费时了。. 事实上，用户不需要看到这几千个页面，他们只需要一两个有用的页面。这时，搜索引擎会根据用户的搜索词预选100个文件，然后返回。那么他们选择了哪一百个文件呢？这取决于您的网站页面与用户搜索的关键词之间的相对匹配。权重高的页面会进入搜索引擎的预选子集

　　4、相关计算

　　选择初始子集后，计算子集中页面的关键词相关性。影响相关性的主要因素包括以下几个方面：

　　关键词常用：越常用的词对搜索词的意义贡献越小，越不常用的词对搜索词的意义贡献越大。假设用户输入的搜索词是“we DKI”。“我们”这个词非常常用，出现在很多页面上。它对搜索词“our DKI”的认可度和意义贡献不大。收录“DKI”一词的页面将与搜索词“我们的 DKI”更相关

　　词频和密度：一般认为在没有关键词积累的情况下，搜索词在页面上出现的频率更高，密度也更高，说明页面与搜索词的相关度更高

　　关键词位置和格式：如索引部分所述，页面关键词的格式和位置记录在索引库中。关键词出现在更重要的位置，如标题标签、粗体、H1等，说明该页面与关键词的相关度更高。这部分是页面 SEO 将要解决的问题

　　关键词距离：出现分词后的关键词完全匹配，表示与搜索词最相关。例如，在搜索“减肥方法”时，页面上连续完整出现的“减肥方法”四个词最相关。如果“减肥”和“方法”这两个词没有连续出现，它们看起来更接近，也被搜索引擎认为稍微更相关。

　　链接分析和页面权重：除了页面本身的因素*敏*感*词*的文本等。

　　5、排名过滤和调整

　　计算相关性后，大致排名就确定了。之后，搜索引擎也可能有一些过滤算法来稍微调整排名，其中最重要的是施加惩罚。一些疑似作弊的页面按照正常的权重和相关性计算排在第一位，但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位算法、谷歌的负6、负30、负950等算法。

　　6、排名显示

　　所有排名确定后，排名程序调用原页面的标题标签、描述标签和快照日期显示在页面上。有时搜索引擎需要动态生成页面摘要，而不是调用页面本身的描述标签。

　　7、搜索缓存

　　可以说每次搜索都要重新处理排名，是一种极大的浪费。搜索引擎会将最常用的搜索词存储在缓存中，用户搜索时直接从缓存中调用，无需经过文件匹配和关联计算，大大提高了排名效率，缩短了搜索响应时间

　　8、查询和点击日志

　　搜索引擎记录搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。

　　四、前端SEO规范概述

　　1、合理的title、description、keywords，三个item的搜索权重一一降低，title值可以强调重点。描述高度概括页面内容，不要堆得太满关键词，关键词列表重要关键词。

　　2、语义 HTML 标签

　　3、非装饰图片必须加alt

　　4、把重要的内容放在HTML的顶部，先加载。搜索引擎抓取 HTML 的顺序是从上到下，以确保重要的内容必须被抓取

　　5、每页只出现一个h1标签

　　6、尽量不要把网页做成flash、图片、视频，因为搜索引擎是抓不住的

　　7、少用iframe，无法抓取iframe

　　8、页面尽量扁平化，层次太深不利于抓取

　　9、异步加载内容（ajax）搜索引擎也抢不到。重要信息可以直接输出，有利于用户体验和seo优化。

　　10、使用友情链接将自己的网站链接导入别人的网站

　　11、尚未向各大搜索引擎登录入口提交收录网站

　　12、提高网站的速度，网站的速度是搜索引擎排名的重要指标

　　13、做好404页面不仅是为了提升蜘蛛体验，也是为了让用户体验更好

　　五、前端SEO规范详细介绍

　　[1] 网站结构布局优化

　　一般来说，网站结构层级越少，越容易被“蜘蛛”爬取，也容易被收录爬取。一般中小网站的目录结构超过三级，“蜘蛛”不愿意爬下去。并且根据相关数据调查：如果访问者在跳转3次后仍未找到所需信息，则很可能会离开。所以三层目录结构也是需要经验的。为此，我们需要执行以下操作

　　控制首页链接数：网站首页是权重最高的地方。如果首页链接太少，没有“桥”，“蜘蛛”就无法继续爬到内页，直接影响网站收录数量。但是，主页链接不应过多。一旦链接过多而没有实质性链接，很容易影响用户体验，降低首页网站的权重，收录的效果也不好。扁平化的目录层次：尽量让“蜘蛛”只需要跳转3次就可以到达网站中的任何内页。导航优化：导航尽量采用文字，也可以配合图片导航使用，但图片代码一定要优化。

　　标签必须添加alt和title属性来告诉搜索引擎导航到哪里，这样即使图片无法正常显示，用户也能看到提示文字。其次，应在每个网页中添加面包屑导航。从用户体验的角度，可以让用户知道自己的当前位置和当前页面在整个网站中的位置，帮助用户快速了解网站组织形式，从而形成更好的感知的位置，同时提供返回每个页面的界面，方便用户操作。对于“蜘蛛”，可以清楚的了解网站的结构，并且添加了大量的内部链接，方便爬取，降低跳出率。网站结构布局：页眉：标志和主导航，以及用户信息。主页：左侧的文字，包括面包屑导航和文字。热门的文章及相关的文章都放在了留住访客的权利，让访客多停留。对于“蜘蛛”来说，这些文章是相关链接，增强了页面的相关性，也增强了页面的权重。页面底部的版权信息和友好链接。将重要的内容 HTML 代码放在顶部：搜索引擎从上到下抓取 HTML 内容。使用这个功能，可以先读取主要代码，广告等不重要的代码放在下面。例如，当左右两列的代码保持不变时，只需更改样式并使用 float:left; 和浮动：右；随意调换显示器上两列的位置，保证重要性代码在先，让爬虫先爬行。这同样适用于多列。控制页面大小，减少http请求，提高网站的加载速度：一个页面不要超过100k，太大，页面加载速度会变慢。当速度很慢时，用户体验不好，访客留不住，一旦超时，“蜘蛛”也会离开。

　　[2] 网页代码优化

　　突出重要内容：合理设计标题、描述和关键词。标题只强调关键点。尽量把重要的关键词放在前面，不要重复关键词。尽量不要在每个页面的标题中设置相同的内容。关键词，就在几页上列出重要的关键字，切记堆太多。网页描述需要高度概括。切记不要太长或堆得太满关键词。每个页面必须不同。语义化编写HTML代码：尽量让代码语义化，在合适的地方使用合适的标签，用正确的标签做正确的事。让读者和“蜘蛛”一目了然。例如：h1-h6 用于标题类别，标签用于设置页面的主导航，列表形式的代码用ul或ol，重要的文字用strong等。标签：页内链接，添加标题属性解释，让访问者和“蜘蛛”知道。对于外链，链接到其他网站，需要添加el="nofollow属性，告诉“蜘蛛”不要爬取，因为“蜘蛛”一旦爬取了外链，就不会再回来了。标题：标签：h1标签有自己的权重。“蜘蛛”认为它是最重要的。一个页面最多只有一个H1标签，放在页面最重要的标题上方。例如，H1可以在首页的logo中添加标签，字幕使用标签，其他地方不要乱用h标题标签。添加标题属性来解释，让访问者和“蜘蛛”知道。对于外链，链接到其他网站，需要添加el="nofollow属性告诉“蜘蛛”不要爬取，因为“蜘蛛”一旦爬取了外链，就不会再回来了。标题：标签：h1标签有自己的权重。“蜘蛛”认为它是最重要的。一个页面最多只有一个H1标签，放在页面最重要的标题上方。例如，H1可以在首页的logo中添加标签，字幕使用标签，其他地方不要乱用h标题标签。添加标题属性来解释，让访问者和“蜘蛛”知道。对于外链，链接到其他网站，需要添加el="nofollow属性告诉“蜘蛛”不要爬取，因为“蜘蛛”一旦爬取了外链，就不会再回来了。标题：标签：h1标签有自己的权重。“蜘蛛”认为它是最重要的。一个页面最多只有一个H1标签，放在页面最重要的标题上方。例如，H1可以在首页的logo中添加标签，字幕使用标签，其他地方不要乱用h标题标签。不爬，因为一旦“蜘蛛”爬到了外链，就不会再回来了。标题：标签：h1 标签自带重量。“蜘蛛”认为它是最重要的。一个页面最多只有一个 H1 标签，该标签位于页面最重要的标题上方。例如，可以将 H1 标签添加到主页上的徽标中。对字幕使用标签，其他地方不要乱用h标题标签。不去爬，因为一旦“蜘蛛”爬到了外链，就不会再回来了。标题：标签：h1 标签自带重量。“蜘蛛”认为它是最重要的。一个页面最多只有一个 H1 标签，该标签位于页面最重要的标题上方。例如，可以将 H1 标签添加到主页上的徽标中。对字幕使用标签，其他地方不要乱用h标题标签。

　　“alt”属性应该是用来说明的：当网速很慢，或者图片地址无效时，alt属性的作用就可以体现出来，它可以让用户知道图片的功能。图片不显示。同时设置图片的高度和宽度，以提高页面的加载速度。表格应该使用表格标题标签：标题元素定义表格标题。标题标签必须紧跟在表格标签之后。标签：标签在搜索引擎中的价值很高。可以突出关键词，表达重要内容。标签强调的效果仅次于标签。标签仅用于显示。有效时使用它，它不会对SEO产生任何影响。不要用JS输出重要内容：因为“蜘蛛” 不会读取 JS 中的内容，重要的内容必须放在 HTML 中。前端框架SEO缺点可以通过服务端渲染来弥补，尽量减少iframe框架的使用：因为“蜘蛛”一般不读取内容。搜索引擎会过滤掉 display:none 中的内容。蜘蛛只能抓取a标签中的href：测试后最好不要收录参数，如果测试收录参数，蜘蛛不会考虑。在这种情况下，需要重写 URL。蜘蛛不执行 JavaScript：也就是说，如果在 a 标签中使用了 onclick 蜘蛛，则不会被捕获。蜘蛛只能抓取get请求的页面，不能抓取post请求的页面。创建robots文件：我们希望网页首页被蜘蛛抓取，但我们不希望后台页面被蜘蛛抓取。蜘蛛没有那么聪明。知道你的网站哪个是前台页面，哪个是后台页面。这里需要创建一个名为“robots.txt”的文件（注意robots.txt是一个协议，不是一个命令。一般最好遵循robots.txt是搜索引擎搜索这个的第一个文件网站. 六、参考

　　文章每周持续更新，微信搜索“前端合集”第一时间阅读，回复【视频】【书籍】可领取200G视频资料和30本PDF书籍资料

AI时代内容工厂

如何做好网站搜索引擎优化(搜索引擎搜索引擎的工作原理是什么？什么是搜索引擎？)

0 个评论

发起人

AI时代内容工厂

如何做好网站搜索引擎优化(搜索引擎搜索引擎的工作原理是什么？什么是搜索引擎？)

0 个评论

发起人

相关问题