厦门百度搜索引擎优化(搜索引擎的工作原理(一-4搜索引擎)的具体内容包括以下几点)

优采云 发布时间: 2021-11-23 04:11

  厦门百度搜索引擎优化(搜索引擎的工作原理(一-4搜索引擎)的具体内容包括以下几点)

  搜索引擎的工作原理非常复杂,大致可以分为爬取爬取、预处理、排序三个阶段,如图1-4所示。具体介绍如下。

  图1-4 搜索引擎的工作原理

  1.爬行爬行

  爬取和抓取是搜索引擎的首要工作,即发现和采集互联网上的网页信息,同时对信息进行提取和索引。“爬行爬行”的具体内容包括以下几点。

  

  (1)搜索引擎蜘蛛

  搜索引擎用来抓取和访问页面的程序称为“蜘蛛”或网络机器人,它们是按照一定规则自动抓取互联网信息的程序或脚本。

  蜘蛛的作用是浏览互联网上的信息,然后抓取所有的信息到搜索引擎的服务器,然后构建索引库。我们可以将蜘蛛比作一个用户,然后这个用户访问某个网站,并将网站的内容保存在他的电脑上。

  搜索引擎蜘蛛,如浏览器,也有标识自己的代理名称。站长可以在日志文件中看到搜索引擎的具体代理名称,就知道是哪些搜索引擎蜘蛛抓取的,什么时候抓取的。拥有 网站 页面。常见的搜索引擎蜘蛛有:百度蜘蛛、雅虎中文蜘蛛、雅虎英文蜘蛛、谷歌蜘蛛、微软必应蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛。

  (2)跟踪链接

  为了抓取更多的页面,搜索引擎蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。整个互联网是由相互连接的网站和页面组成的。理论上,蜘蛛可以通过链接从任何页面爬到互联网上的其他页面。

  由于网站和页面链接的结构极其复杂,蜘蛛需要采用一定的爬取策略来爬取互联网上的所有页面。搜索引擎蜘蛛的爬取策略分为两种,一种是深度优先搜索,一种是广度优先搜索。

  ①深度优先搜索

  深度优先搜索是指蜘蛛沿着发现的链接向前爬行,直到没有更多的链接,然后返回第一页,然后沿着另一个链接向前爬行。

  图 1-5 显示了一个无向图。如果蜘蛛从A点开始爬行(访问顺序不唯一,第二个点可以是C点也可以是B点或D点),你会得到如下访问流程:A→B→E,没有下一条路在这次会回到A点,然后继续下一个访问过程:A→C→F→H→G→D(没办法,最后回到A点),回到A点后,A点有没有未访问的相邻节点,搜索结束。

  ② 广度优先搜索

  广度优先搜索是指当蜘蛛在一个页面上找到多个链接时,它不会一直沿着一个链接前进,而是爬取该页面上所有的一级页面,然后沿着二级页面找到它们。链接爬到第三级链接。如图1-6所示,蜘蛛沿着A页面的链接爬到B、C、D页面,直到A页面的所有链接都被爬满,然后从B页面的链接爬到E、F页面。

  

  在深度优先搜索算法中,首先扩展具有较大深度的节点。如果将算法改为根据搜索中节点的级别进行搜索,如果该层的节点没有被搜索处理过,则无法处理下层节点,即先展开深度较小的节点,也就是说可以先扩展第一个节点,这种搜索算法称为广度优先搜索法。

  理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它们就可以爬行整个网络。但是在实际工作中,蜘蛛的宽带资源和时间都是有限的,所以不可能爬满所有的页面。深度优先和广度优先通常混合使用,因为这样可以兼顾更多的网站(广度优先)和部分网站页面(深度优先),同时还要考虑页面权重等因素, 网站 规模,并考虑外部链接。

  (3) 吸引蜘蛛

  蜘蛛虽然理论上可以爬取所有网页,但实际上由于多种因素无法爬取所有网页。因此,SEO人员要想网站有更多的页面成为收录,就必须想办法吸引蜘蛛爬行。那么有哪些因素可以吸引蜘蛛爬行呢?

  · 网站 和页面权重。一般来说,优质、长期的网站权重相对较高,搜索引擎蜘蛛爬取的频率更高。这种网站的爬取深度比较高,收录的页面也很多。

  · 页面更新的频率。蜘蛛每次爬行时都会存储页面数据。如果第二次爬取时页面内容和第一个收录完全一样,说明页面没有更新,蜘蛛不会经常爬取。页面内容更新频繁,蜘蛛会更频繁地访问页面,页面上会出现新的链接,自然会被蜘蛛更快地跟踪和抓取。

  · 网站的原创内容。原创 内容对百度蜘蛛非常有吸引力,搜索引擎蜘蛛每天都需要它。对于原创文章的写作,站长需要有敏锐的观察力和写作能力,原创的内容一定要有吸引力,不能陈词滥调,否则会失去兴趣在蜘蛛。上诉。

  · 网站地图。网站地图就像一个指针。只有清晰的指针才能引导蜘蛛爬行路线。如果网站地图清晰明了,会很容易吸引蜘蛛爬行。相反,如果网站内部链接杂乱无章,蜘蛛经常迷路,那么蜘蛛就很少爬行,不利于爬取网站页面。

  (4)地址库

  搜索引擎为了防止蜘蛛重复爬行爬取网址,会建立一个地址库,记录已发现但未爬取的页面,以及已爬取的页面。地址库中的URL主要来自以下4个方面:

  · 手动输入*敏*感*词*网站。

  ·蜘蛛抓取页面后,从HTML中解析出新的链接URL,并与地址库中的数据进行比较。如果 URL 不在地址库中,则将其存储在地址库中以供访问。

  · 站长通过搜索引擎页面提交表单提交的网址。

  · 站长通过XML网站图和站长平台提交的网址。

  蜘蛛根据重要性从待访问地址库中提取URL,访问爬取页面,然后从待访问地址库中删除该URL,放入访问地址库中。

  一般来说,搜索引擎会提供一个表格供站长提交网址。但是,这些提交的 URL 仅存储在地址数据库中。是否收录取决于页面的重要性。搜索引擎收录的大部分页面都是蜘蛛自己通过链接获取的。可以说提交页面基本没用,搜索引擎更喜欢自己沿着链接发现新页面。

  (5)文件存储

  文件存储是指搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。每个 URL 都有一个唯一的文件编号。

  (6)爬行时检测内容

  众所周知,重复数据删除是在搜索引擎索引链接中进行的。其实蜘蛛爬的时候就已经检测到了。当蜘蛛爬取和抓取文件时,它会进行一定程度的复制内容检测。当遇到低权重网站上大量转载或抄袭内容时,极有可能爬不下去。

  所以新站不要采集抄袭其他网站内容。这也是为什么很多站长在查看日志的时候发现了蜘蛛,但是页面没有被蜘蛛抓取的原因。爬行的时候,如果发现是重复的内容,就会放弃爬行,所以蜘蛛只停留在爬行阶段。

  2. 预处理

  蜘蛛爬取爬取网站之后,还需要对页面进行预处理,也就是所谓的“索引”。由于搜索引擎数据库中有数以亿计的网页,用户输入搜索后,搜索引擎的计算量太大,很难在很短的时间内返回搜索结果。因此,页面必须经过预处理,才能为最终查询做排名准备。预处理主要包括以下步骤。

  (1)提取文本

  现阶段,搜索引擎主要以文本内容为主。蜘蛛抓取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本外,还收录了大量的HTML格式标签、Javascript程序等无法用于排名的内容。搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页的文本内容进行排名处理。

  (2)中文分词

  中文分词是中文搜索引擎独有的循序渐进的工作内容。中文单词之间没有分隔符,句子中的所有单词和单词都连接在一起。因此,搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词。中文分词有两种方法,一种是基于词典匹配,一种是基于统计分词。

  · 基于词典匹配的分词是指将一段待分析的汉字与预先建立的词典中的一个词进行匹配。在待分析的汉字字符串中扫描字典中已有的词条表示匹配成功,或者可以说切出一个词。

  · 基于统计的分词是指对大量文本样本进行分析,计算字符相邻出现的概率。字符之间的相邻出现次数越多,形成单词的可能性就越大。基于统计分词的方法的优点是对新词反应更快,也有利于消除歧义。

  在实际使用中,结合了两种分词方法。搜索引擎对页面的分词取决于词库的分词算法的规模、准确度和质量,而不是页面本身,所以从分词的角度来看,SEO人员能做的很少@网站。唯一能做的就是使用某种形式在页面上提示搜索引擎。某些词应视为一个词,尤其是在可能存在歧义的情况下,例如页面标题、h1 标签和粗体关键词。如果页面是关于“舞蹈训练”的内容,那么可以将“舞蹈训练”字样加粗,这样搜索引擎在分析页面时,就会知道加粗的字是一个字。

  (3) 停止这个词

  停用词是页面内容中频繁出现但对内容没有影响的词,如“的”、“地”、“得”等助词,以及“啊”、“哈”、“啊”。“从而”、“以”、“阙”等副词或介词的感叹词。除了中文外,英文中还有一些常见的停用词,如the、a、an、to、of等。

  因为它们对页面的主要含义没有影响,搜索引擎会在索引页面之前删除这些停用词,使索引数据的主题更加突出,减少不必要的计算。

  (4) 消除噪音

  噪音井不是指网页上的嘈杂声音,而是指页面上对页面主题没有贡献的内容,如版权声明文字、导航栏、广告等,只能播放一个页面主题上的分散注意力的效果。因此,搜索引擎需要识别并消除这些噪音,在排名时不要使用噪音内容。去噪的基本方法是根据HTML标签将页面分成块,区分页眉、导航、正文、页脚、广告等区域。网站 上的大量重复块属于噪声。页面去噪后,剩下的就是页面的主要内容了。

  (5)删除

  相同的文章经常重复出现在不同的网站和相同的网站不同的URL上。搜索引擎不喜欢这种重复的内容。用户在搜索此信息时,如果在前几页看到来自不同网站的同一篇文章文章,会影响用户体验。尽管这些网页的内容是相关的,但搜索引擎在结果中更喜欢只返回一篇与文章相同的文章,因此在索引之前需要识别并删除重复的内容。这个过程可以称为“重复数据删除”。

  知道了搜索引擎的去重算法,SEO人员就应该知道在文章中简单地添加“的”“地”“得”或者改变段落顺序的“伪原创”方法。嗯,逃不过搜索引擎的去重算法。因为这种操作并没有改变文章的内容特征关键词,而且搜索引擎的去重算法很可能不仅仅在页面层面,而是在段落层面,即使是混合和不同文章,对调段落顺序也不能让转载抄袭成为原创。

  (6)前向索引

  经过文本提取、分词、去噪、去重后,搜索引擎获得唯一的、能够反映页面主要内容的基于词的内容。完成上述工作后,搜索引擎索引程序就可以提取关键词,按照分词程序对关键词进行划分,将页面转换成关键词的集合,并记录每个关键词在页面上的出现频率、出现次数、格式(如标题标签、粗体、H标签、锚文本等)和位置(如页面第一段)。这样就可以将每一页记录为一串关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息。

  (7)倒排索引

  前向索引不能直接用于排名。假设用户搜索关键词 2,如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词 2的文件,然后进行关联计算。这个计算量不能满足实时返回排名结果的要求。因此,搜索引擎需要将正向索引数据库重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射。

  (8) 链接关系计算

  目前主流的搜索引擎排名因素都包括网页之间的链接流信息。搜索引擎抓取页面内容后,必须提前计算页面上的哪些链接指向哪些页面,每个页面上有哪些导入的链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了 网站 和页面的链接权重。

  由于页面和链接数量庞大,互联网上的链接关系不断更新,因此链接关系和(权重)PR的计算需要很长时间。

  (9)特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPs、XLs、PPT、TXT 文件等,我们经常在搜索结果中看到这些文件类型。但是,搜索引擎也有自己无法处理的网页内容,比如图片、视频、Flash等,还有脚本和程序。尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但离通过阅读图片、视频和Flash内容直接返回结果的目标还很远。

  3. 排名

  搜索引擎蜘蛛抓取页面,索引程序计算出倒排索引后,搜索引擎就可以处理用户搜索了。大多数面向搜索引擎的用户在搜索框中输入搜索词后都会得到一个列表页面。,这个搜索结果页是基于大量的搜索索引库,那么搜索引擎是如何完成排名的呢?

  (1)分析提交的搜索请求

  用户在搜索引擎上输入关键词,提交搜索请求后,搜索引擎会对搜索请求进行详细分析。分析检索请求包括以下几点。

  · 中文分词。与页面搜索一样,搜索词也必须用中文进行切分,查询字符串必须转换为基于词的关键词组合。

  ·去停词。与页面索引一样,搜索引擎也需要从搜索词中删除停用词,以最大限度地提高排名的相关性和效率。

  · 订单处理。分词完成后,搜索引擎默认的处理方式是使用关键词之间的“与”逻辑。例如,搜索“美白产品”时,搜索引擎会将其分成两个词组进行查找。搜索引擎默认排序,用户正在寻找同时收录“美白”和“产品”的页面。仅收录“美白”但不收录“产品”或仅收录“产品”但不收录“美白”的结果页面将被搜索引擎视为不合格。

  · 拼写更正。如果用户在搜索时输入了明显的英语单词拼写错误或拼写错误,搜索引擎会提示用户使用正确的单词或拼写。例如,如果您在搜索引擎中搜索“临床医学”,但输入“领子医学”,则搜索引擎会提示您,如图1-7所示。

  

  图 1-7 拼写更正

  · 集成搜索触发器。某些搜索词将触发集成搜索。例如,名人的名字经常触发图片和视频内容,当前的热门话题很容易触发信息内容。在搜索词处理阶段还需要计算哪些词触发哪些集成搜索。

  (2)文件匹配

  搜索引擎蜘蛛无时无刻不在爬行爬行,同时不断对爬取到的数据进行组织、汇总和存储。对搜索词进行处理后,搜索到的是一个关键词的基于词的集合。文件匹配阶段是查找收录所有搜索关键词的所有文件。搜索部分提到的倒排索引可以快速完成文件匹配,如图1-8所示。

  

  图1-8 倒排索引快速匹配文件表

  这张图是典型的倒排索引,用来快速匹配文档表。假设用户搜索“关键词 1”和“关键词 7”,排名程序只需要在倒排索引中找到“关键词 1”和“关键词@” > 7",可以分别找到收录这两个词的搜索页面。

  (3)初始子集选择

  子集是为了更快地满足用户的需求。搜索引擎需要从所有相关页面中进行选择,只计算权重较高的页面返回给用户。这个过程是初始的子集选择。

  当用户搜索某个关键词时,收录这个关键词的页面有几千个,甚至几十万甚至几百万。搜索引擎将如此大量的数据一一匹配需要很长时间,这将直接影响用户体验。因此,为了更好地满足用户的需求,在实践中,搜索引擎只会选择那些权重高的页面。比赛。

  (4)相关计算

  选择初始子集后,必须计算子集页面中关键词的相关性。计算相关性是排名中最重要的一步。影响相关性的因素主要包括以下几个方面。

  · 关键词 经常使用。分词后,多个关键词对整个搜索字符串的意义有不同的贡献。使用频率越高的词对搜索词的含义的贡献越小,而使用频率越低的词对搜索词的含义的贡献越大。

  · 使用链接和页面权重。做好外链与网站、收录的排名、权重有很大关系。网站的整体权重越大,被蜘蛛爬取的频率越快,也就是说网站的页面已经收录。

  · 关键词 出现的地方。如果优化后的关键词出现在标题中,越靠左,排名越好。同时,正文中关键词最好出现在第一段的第一句,少量在后面的内容中只出现几次。

  · 关键词密度和词频。一般来说,当没有关键词的积累时,页面出现的搜索词越多,密度越高,页面内容与搜索词的相关性越高。但是,这只是一般规律,实际情况可能并非如此,因此在相关性计算中还有其他因素。发生的频率和密度只是相关因素的一部分,它们的重要性越来越不重要。

  · 关键词的距离。中文搜索引擎最大的特点就是中文分词,比如《北京网络营销培训》。如果这个词出现多次,搜索引擎会认为它是一个词,但如果某篇文章文章出现“北京”和“网络营销培训”,并且两个词出现的距离很远,则认为是不是很相关。

  (5) 排名过滤和调整

  选择匹配文件的子集并计算相关性后,网页的排名就基本确定了。之后,搜索引擎也会有一些过滤算法对排名进行微调,其中最重要的就是惩罚。虽然某些涉嫌作弊的页面会根据正常的权重和相关性计算排名第一,但一旦发现这些页面,就会受到搜索引擎的惩罚,并将其排名调整到后面以作为警告。的作用。

  (6) 排名显示

  所有排名确定后,排名程序会调用原页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线