如何做好网站搜索引擎优化(搜索引擎搜索引擎的工作原理是什么?什么是搜索引擎?)
优采云 发布时间: 2021-10-20 21:15如何做好网站搜索引擎优化(搜索引擎搜索引擎的工作原理是什么?什么是搜索引擎?)
一、什么是搜索引擎
搜索引擎是帮助用户搜索他们需要的内容的计算机程序。换句话说,搜索引擎将计算机中存储的信息与用户的信息需求进行匹配,并显示匹配结果。
例如:如果您想购买iPhone12,想知道“iPhone12”的配置或价格,在浏览器搜索框中输入“iPhone12”,点击搜索按钮。这里关键词“iPhone12”就是你的信息需求。在浏览器显示搜索结果的十分之一秒内,它的程序根据关键字搜索庞大的数据库,最终计算出所有关于“iPhone12”的网页。
二、搜索引擎的工作原理
在搜索引擎网站的后端,会有一个非常大的数据库,里面存储了大量的关键词,每个关键词对应了很多个URL,称为“搜索引擎蜘蛛”或“网络爬虫”。该程序是从庞大的互联网上一点一点地下载和采集的。随着各种网站的出现,这些勤劳的“蜘蛛”每天都在互联网上爬行,从一个链接到另一个链接,下载内容,分析提炼,找到关键词,如果“蜘蛛”认为关键词不在数据库中,对用户有用,会存储在后台数据库中。反之,如果“蜘蛛”认为是垃圾邮件或重复信息,直接丢弃,继续爬行,找到最新的有用信息,保存并提供给用户搜索。当用户搜索时,可以检索到与关键字相关的网址,并显示给访问者。
一个 关键词 对使用了多个 URL,因此存在排序问题,与 关键词 匹配度最高的对应 URL 将排在第一位。在“蜘蛛”抓取网页内容并提炼关键词的过程中,有一个问题:“蜘蛛”能看懂吗?如果网站的内容是flash、js等,那就是看不懂、糊涂了,即使关键词再贴切也无济于事。相应地,如果网站的内容能够被搜索引擎识别,搜索引擎就会增加网站的权重,增加网站的友好度。这样的过程称为SEO。
三、搜索引擎工作流程(三个阶段)
搜索引擎的工作过程大致可以分为三个阶段。
【第一阶段】爬行爬行:搜索引擎蜘蛛通过跟踪链接访问网页,获取网页的HTML代码并存入数据库。
1、什么是蜘蛛?
抓取网页数据时称为执行器。事实上,它是一个计算机程序,因为这个工作过程与现实中的蜘蛛非常相似。业界称之为搜索引擎蜘蛛!蜘蛛程序向网站页面发送访问请求,服务器将返回HTML代码,蜘蛛程序将接收到的代码存储到原创页面的数据库中。蜘蛛访问任何网站时,都会先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守这些禁令,不会抓取那些被禁止的网址。
2、如何追踪链接?
为了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会跟随网站页面上的链接,从一页爬到下一页。这个过程就像蜘蛛在蜘蛛网上爬行一样,也是一个搜索引擎。蜘蛛名称的由来。整个互联网由链接的网站页面组成。理论上,只要给蜘蛛足够的时间,它总是可以抓取互联网上的所有页面链接。但实际情况并非如此。由于网站和链接结构极其复杂,蜘蛛需要采用一定的爬取策略来遍历互联网上的所有页面。
3、 爬取策略
根据网站的不同链接结构,我们可以将蜘蛛爬取策略分为两种:深度爬行和广度爬行
在实际工作中,蜘蛛的带宽资源和时间都是有限的,不可能爬满所有页面。深度优先和广度优先通常是混用的,这样可以同时处理尽可能多的网站(广度优先)和网站(深度优先)的部分内页
4、吸引蜘蛛
根据上面的介绍,蜘蛛不可能收录所有页面,所以SEO就是用各种手段吸引蜘蛛去爬收录自己网站更多的页面。由于不可能所有页面都是收录,蜘蛛必须尝试抓取重要页面。那么蜘蛛是如何确定哪些页面更重要的呢?有几个影响因素:
5、地址库
搜索引擎会建立一个地址库来存储页面,以避免搜索引擎蜘蛛重复抓取和抓取网址。该地址库收录已爬取的页面和被发现后未爬取的页面。这个地址库中的URL一定要被蜘蛛爬取吗?答案是否定的。有人工输入的*敏*感*词*网站地址,也有部分站长通过搜索引擎网页提交网址(一般个人博客或网站采用这种方式)。蜘蛛爬取页面后,解析出URL,与地址库进行对比。如果不存在,存入
6、文件存储
搜索引擎蜘蛛抓取的数据存储在这个原创页面数据库中,其中的页面数据与用户浏览器获取的HTML完全相同。每个 URL 都有唯一的文件编号
7、检测复制内容
爬虫在爬取文件的时候也会进行一定程度的复制内容检测!当遇到一个网站权重低,抄袭抄袭内容多的时候,蜘蛛很可能会停止爬行。这就是为什么有些站长在日志文件中发现了蜘蛛,但页面从来没有真正收录的原因。
【第二阶段】预处理:索引程序对抓取到的网页数据进行文本提取、中文分词、索引等处理,为排名程序调用做准备。
由于搜索引擎数据库中的数据太多,用户在搜索框中输入关键词后是无法返回排名结果的,但是我们经常会觉得速度很快。事实上,关键作用是预处理。这个过程和爬虫过程一样,都是在后台提前完成的。有些人认为预处理就是索引,但事实并非如此。索引只是预处理的一个主要步骤。那么什么是索引?索引是一种用于对数据库列表中一列或多列的值进行排序的结构。在索引之前有五个任务需要完成:
1、提取文本
搜索引擎首先需要从HTML文件中去除HTML格式标签和javascript程序,提取出网站页面的文本内容,可用于排名处理。除了提取可见文本外,搜索引擎还可以提出以下不可见文本内容,例如:meta标签中的文本内容、图片替代文本、Flash文件的替代文本、链接锚文本等。
2、中文分词
在汉语句子中,词与词之间没有分隔符,句子中的词都是连在一起的。所以,这时候搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词。例如:“波司登羽绒服”分为“波司登”和“羽绒服”两个词。中文分词一般有两种方法:
基于词典匹配和统计的分词方法各有优缺点,实际使用中的分词系统褒贬不一。
这两种方法快速高效,可以识别新词和新词,消除歧义。)
3、去阻止这个词
什么是停用词?页面内容中出现频繁但对内容没有影响的一些词。例如:“的”、“地”、“得”等助词;“啊”、“哈”、“啊”等感叹词;“因此”、“以”、“阙”等介词。英语中常见的停用词,例如“the”和“of”。这些词被称为停用词,因为它们对页面的主要含义没有影响。搜索引擎停用词有两个主要目的:
4、去除噪音
这里的noise并不是我们所说的noise,它特指一种垃圾,也就是多余的话!这些词通常收录在版权声明文本、导航栏和广告中。搜索引擎需要识别并消除这些噪音,排名时不使用噪音内容。去噪的基本方法是根据HTML标签将页面分成块,区分页眉、导航、正文、页脚、广告等区域。网站上的大量重复块往往是噪音,与页面主题有关。只能起到去中心化作用。页面去噪后,剩下的就是页面的主要内容了。
5、去重(冲)
相同的文章经常重复出现在不同的网站上,相同的网站出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验太差了,虽然都是内容相关的。搜索引擎希望在同一个文章中只返回一篇文章,因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”
经过以上五个步骤,搜索引擎将能够获得能够反映页面主要内容的独特的、基于词的内容。然后搜索引擎程序通过分词程序将上面提取的关键词进行分割,将每个网站页面转换成关键词的集合,并记录每个关键词的频率,关键词在页面上出现的次数、格式(如标题标签、粗体、H标签、锚文本等)位置(段落),这些都以权重的形式记录下来,然后放在一个地方,这个地方就是专门为这些复合词放置的词汇结构——索引库,也叫“词汇索引表”
6、远期指数
页面转换为关键词的集合,同时页面上每个关键词的频率和输出。
次数、格式(如出现在标题标签、粗体、H 标签、锚文本等)、位置(如页面第一段)
文本等)。这样每个页面都可以记录为一串关键词集合,其中每个关键词的词频
, 格式、位置和其他重量信息也被记录下来。每个文件夹对应一个ID,文件内容用一组关键词表示。在搜索引擎的索引库中,此时关键词还没有转换成关键词 ID,这个数据结构叫做正向索引
7、倒排索引
因为前向索引不能直接用于排名,比如用户搜索某个关键词2,如果只从前向索引中,只能找到收录关键词的文件夹,而排名实际上无法返回。. 此时将使用倒排索引。在倒排索引中,关键词 成为主键。每个关键词对应一系列文件,每个文件都有关键词需要搜索,这样用户在搜索某个关键词,排序程序就可以找到对应的文件到倒排列表中的这个关键词
8、 特殊文件的处理
除了 HTML 文件,搜索引擎通常可以抓取并索引多种基于文本的文件类型,例如
PDF、Word、WPS、XLS、PPT、TXT文件等,我们经常在搜索结果中看到这些
文件类型。但是,当前的搜索引擎无法处理图像、视频和 Flash 等非文本内容,也不能
执行脚本和程序。尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但离通过读取图片、视频和Flash内容直接返回结果的目标还差得很远。图片和视频内容的排名往往以与其相关的文字内容为依据。所以在SEO中,你网站尽量少用这些
9、链接关系计算
搜索引擎抓取页面后,还必须提前计算哪些链接指向页面上的哪些页面。每个页面导入的链接是什么,链接中使用了哪些锚文本?正是这些复杂的链接指向关系,形成了网站和页面的链接权重。
【第三阶段】排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后生成一定格式的搜索结果页面。
1、搜索词处理
2、文件匹配
倒排索引快速匹配文件。如果用户搜索“关键词2关键词7”,则排名程序只需要在倒排索引中找到“关键词2”和“关键词7”与这些两个词,您可以找到收录这两个词的所有页面。经过简单的计算,我们可以找到同时收录“关键词2”和“关键词7”的所有页面:文件1和文件6
3、初始子集选择
互联网上有几万个页面,搜索某个关键词就会有几千万个页面。如果搜索引擎上来直接计算页面的相关性,简直太费时了。. 事实上,用户不需要看到这几千个页面,他们只需要一两个有用的页面。这时,搜索引擎会根据用户的搜索词预选100个文件,然后返回。那么他们选择了哪一百个文件呢?这取决于您的 网站 页面与用户搜索的 关键词 之间的相对匹配。权重高的页面会进入搜索引擎的预选子集
4、相关计算
选择初始子集后,计算子集中页面的关键词相关性。影响相关性的主要因素包括以下几个方面:
关键词常用:越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。假设用户输入的搜索词是“we DKI”。“我们”这个词非常常用,出现在很多页面上。它对搜索词“our DKI”的认可度和意义贡献不大。收录“DKI”一词的页面将与搜索词“我们的 DKI”更相关
词频和密度:一般认为在没有关键词积累的情况下,搜索词在页面上出现的频率更高,密度也更高,说明页面与搜索词的相关度更高
关键词 位置和格式:如索引部分所述,页面关键词的格式和位置记录在索引库中。关键词出现在更重要的位置,如标题标签、粗体、H1等,说明该页面与关键词的相关度更高。这部分是页面 SEO 将要解决的问题
关键词 距离:出现分词后的关键词完全匹配,表示与搜索词最相关。例如,在搜索“减肥方法”时,页面上连续完整出现的“减肥方法”四个词最相关。如果“减肥”和“方法”这两个词没有连续出现,它们看起来更接近,也被搜索引擎认为稍微更相关。
链接分析和页面权重:除了页面本身的因素*敏*感*词*的文本等。
5、 排名过滤和调整
计算相关性后,大致排名就确定了。之后,搜索引擎也可能有一些过滤算法来稍微调整排名,其中最重要的是施加惩罚。一些疑似作弊的页面按照正常的权重和相关性计算排在第一位,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位算法、谷歌的负6、负30、负950等算法。
6、排名显示
所有排名确定后,排名程序调用原页面的标题标签、描述标签和快照日期显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。
7、搜索缓存
可以说每次搜索都要重新处理排名,是一种极大的浪费。搜索引擎会将最常用的搜索词存储在缓存中,用户搜索时直接从缓存中调用,无需经过文件匹配和关联计算,大大提高了排名效率,缩短了搜索响应时间
8、查询和点击日志
搜索引擎记录搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。
四、 前端SEO规范概述
1、 合理的title、description、keywords,三个item的搜索权重一一降低,title值可以强调重点。描述高度概括页面内容,不要堆得太满关键词,关键词列表重要关键词。
2、 语义 HTML 标签
3、非装饰图片必须加alt
4、 把重要的内容放在HTML的顶部,先加载。搜索引擎抓取 HTML 的顺序是从上到下,以确保重要的内容必须被抓取
5、每页只出现一个h1标签
6、 尽量不要把网页做成flash、图片、视频,因为搜索引擎是抓不住的
7、少用iframe,无法抓取iframe
8、 页面尽量扁平化,层次太深不利于抓取
9、异步加载内容(ajax)搜索引擎也抢不到。重要信息可以直接输出,有利于用户体验和seo优化。
10、使用友情链接将自己的网站链接导入别人的网站
11、尚未向各大搜索引擎登录入口提交收录网站
12、提高网站的速度,网站的速度是搜索引擎排名的重要指标
13、 做好404页面不仅是为了提升蜘蛛体验,也是为了让用户体验更好
五、前端SEO规范详细介绍
[1] 网站 结构布局优化
一般来说,网站结构层级越少,越容易被“蜘蛛”爬取,也容易被收录爬取。一般中小网站的目录结构超过三级,“蜘蛛”不愿意爬下去。并且根据相关数据调查:如果访问者在跳转3次后仍未找到所需信息,则很可能会离开。所以三层目录结构也是需要经验的。为此,我们需要执行以下操作
控制首页链接数:网站首页是权重最高的地方。如果首页链接太少,没有“桥”,“蜘蛛”就无法继续爬到内页,直接影响网站收录数量。但是,主页链接不应过多。一旦链接过多而没有实质性链接,很容易影响用户体验,降低首页网站的权重,收录的效果也不好。扁平化的目录层次:尽量让“蜘蛛”只需要跳转3次就可以到达网站中的任何内页。导航优化:导航尽量采用文字,也可以配合图片导航使用,但图片代码一定要优化。
标签必须添加alt和title属性来告诉搜索引擎导航到哪里,这样即使图片无法正常显示,用户也能看到提示文字。其次,应在每个网页中添加面包屑导航。从用户体验的角度,可以让用户知道自己的当前位置和当前页面在整个网站中的位置,帮助用户快速了解网站组织形式,从而形成更好的感知的位置,同时提供返回每个页面的界面,方便用户操作。对于“蜘蛛”,可以清楚的了解网站的结构,并且添加了大量的内部链接,方便爬取,降低跳出率。网站 结构布局:页眉:标志和主导航,以及用户信息。主页:左侧的文字,包括面包屑导航和文字。热门的文章及相关的文章都放在了留住访客的权利,让访客多停留。对于“蜘蛛”来说,这些文章是相关链接,增强了页面的相关性,也增强了页面的权重。页面底部的版权信息和友好链接。将重要的内容 HTML 代码放在顶部:搜索引擎从上到下抓取 HTML 内容。使用这个功能,可以先读取主要代码,广告等不重要的代码放在下面。例如,当左右两列的代码保持不变时,只需更改样式并使用 float:left; 和浮动:右;随意调换显示器上两列的位置,保证重要性 代码在先,让爬虫先爬行。这同样适用于多列。控制页面大小,减少http请求,提高网站的加载速度:一个页面不要超过100k,太大,页面加载速度会变慢。当速度很慢时,用户体验不好,访客留不住,一旦超时,“蜘蛛”也会离开。
[2] 网页代码优化
突出重要内容:合理设计标题、描述和关键词。标题只强调关键点。尽量把重要的关键词放在前面,不要重复关键词。尽量不要在每个页面的标题中设置相同的内容。关键词,就在几页上列出重要的关键字,切记堆太多。网页描述需要高度概括。切记不要太长或堆得太满关键词。每个页面必须不同。语义化编写HTML代码:尽量让代码语义化,在合适的地方使用合适的标签,用正确的标签做正确的事。让读者和“蜘蛛”一目了然。例如:h1-h6 用于标题类别,标签用于设置页面的主导航,列表形式的代码用ul或ol,重要的文字用strong等。标签:页内链接,添加标题属性解释,让访问者和“蜘蛛”知道。对于外链,链接到其他网站,需要添加el="nofollow属性,告诉“蜘蛛”不要爬取,因为“蜘蛛”一旦爬取了外链,就不会再回来了。标题:标签:h1标签有自己的权重。“蜘蛛”认为它是最重要的。一个页面最多只有一个H1标签,放在页面最重要的标题上方。例如,H1可以在首页的logo中添加标签,字幕使用标签,其他地方不要乱用h标题标签。添加标题属性来解释,让访问者和“蜘蛛”知道。对于外链,链接到其他网站,需要添加el="nofollow属性告诉“蜘蛛”不要爬取,因为“蜘蛛”一旦爬取了外链,就不会再回来了。标题:标签:h1标签有自己的权重。“蜘蛛”认为它是最重要的。一个页面最多只有一个H1标签,放在页面最重要的标题上方。例如,H1可以在首页的logo中添加标签,字幕使用标签,其他地方不要乱用h标题标签。添加标题属性来解释,让访问者和“蜘蛛”知道。对于外链,链接到其他网站,需要添加el="nofollow属性告诉“蜘蛛”不要爬取,因为“蜘蛛”一旦爬取了外链,就不会再回来了。标题:标签:h1标签有自己的权重。“蜘蛛”认为它是最重要的。一个页面最多只有一个H1标签,放在页面最重要的标题上方。例如,H1可以在首页的logo中添加标签,字幕使用标签,其他地方不要乱用h标题标签。不爬,因为一旦“蜘蛛”爬到了外链,就不会再回来了。标题:标签:h1 标签自带重量。“蜘蛛”认为它是最重要的。一个页面最多只有一个 H1 标签,该标签位于页面最重要的标题上方。例如,可以将 H1 标签添加到主页上的徽标中。对字幕使用标签,其他地方不要乱用h标题标签。不去爬,因为一旦“蜘蛛”爬到了外链,就不会再回来了。标题:标签:h1 标签自带重量。“蜘蛛”认为它是最重要的。一个页面最多只有一个 H1 标签,该标签位于页面最重要的标题上方。例如,可以将 H1 标签添加到主页上的徽标中。对字幕使用标签,其他地方不要乱用h标题标签。
“alt”属性应该是用来说明的:当网速很慢,或者图片地址无效时,alt属性的作用就可以体现出来,它可以让用户知道图片的功能。图片不显示。同时设置图片的高度和宽度,以提高页面的加载速度。表格应该使用表格标题标签:标题元素定义表格标题。标题标签必须紧跟在表格标签之后。标签:标签在搜索引擎中的价值很高。可以突出关键词,表达重要内容。标签强调的效果仅次于标签。标签仅用于显示。有效时使用它,它不会对SEO产生任何影响。不要用JS输出重要内容:因为“蜘蛛” 不会读取 JS 中的内容,重要的内容必须放在 HTML 中。前端框架SEO缺点可以通过服务端渲染来弥补,尽量减少iframe框架的使用:因为“蜘蛛”一般不读取内容。搜索引擎会过滤掉 display:none 中的内容。蜘蛛只能抓取a标签中的href:测试后最好不要收录参数,如果测试收录参数,蜘蛛不会考虑。在这种情况下,需要重写 URL。蜘蛛不执行 JavaScript:也就是说,如果在 a 标签中使用了 onclick 蜘蛛,则不会被捕获。蜘蛛只能抓取get请求的页面,不能抓取post请求的页面。创建robots文件:我们希望网页首页被蜘蛛抓取,但我们不希望后台页面被蜘蛛抓取。蜘蛛没有那么聪明。知道你的网站哪个是前台页面,哪个是后台页面。这里需要创建一个名为“robots.txt”的文件(注意robots.txt是一个协议,不是一个命令。一般最好遵循robots.txt是搜索引擎搜索这个的第一个文件网站. 六、参考
文章 每周持续更新,微信搜索“前端合集”第一时间阅读,回复【视频】【书籍】可领取200G视频资料和30本PDF书籍资料