搜索引擎优化seo知识完全手册(第二课笔记：搜索引擎基础知识和工作原理(基础知识)(图))

　　第 2 课笔记：搜索引擎基础知识及其工作原理

　　大家好，我是SEO专业的。几个月来一直在维护和优化按摩器排行榜的网站，总结了很多经验和知识。今天要分享的是《搜索引擎的基本知识和工作原理》，这是最基本的概念。

　　第 1 部分：什么是搜索引擎？

　　1.定义？

　　官方定义：

　　搜索引擎是指按照一定的策略从互联网上采集信息并使用特定的计算机程序，对信息进行组织和处理，为用户提供检索服务，并将用户检索到的相关信息展示给用户的系统。百度和谷歌是搜索引擎的代表。

　　我的理解是：

　　根据搜索引擎的搜索规则设置目标网站的内容，当用户搜索时，能更好的展示用户想要的内容！这样的服务流程是通过一个叫做搜索引擎的工具来实现的！

　　2.分类？

　　(1）全文索引：

　　从整个互联网中提取每个网站（主要是网页文本）的信息，并使用自己的检索程序

　　（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序建立数据库，搜索结果直接从自己的数据库中调用。并且可以检索到符合用户查询条件的记录，并按照一定的顺序返回结果。全文搜索引擎是目前广泛使用的主流搜索引擎，以国外的谷歌和中国著名的百度为代表。

　　SEO 应专注于此类搜索引擎研究：

　　关键词的匹配度、位置、频率、链接质量——

　　因为：当用户使用关键词搜索信息时，搜索引擎会在数据库中搜索。如果它找到一个匹配用户请求的网站，它会使用一种特殊的算法——通常是根据网页的相关性和每个网页的排名级别来计算，然后根据相关性，返回网页链接按顺序给用户。该引擎的特点是搜索率相对较高。

　　(2）目录索引

　　用户可以完全按照分类找到自己需要的信息，无需依赖关键词（Keywords）进行查询。虽然有搜索功能，但不能称为真正意义上的搜索引擎，它只是一个按目录分类的网站链接列表。最具代表性的目录索引是雅虎、新浪目录搜索、hao123。

　　(3）元搜索引擎

　　(META Search Engine) 接受用户的查询请求后，同时在多个搜索引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。在中文元搜索引擎中，代表作是搜星搜索引擎。在排名搜索结果方面，有的直接

　　按来源排列搜索结果，例如 Dogpile；其他人则根据自定义规则重新排列结果，例如 Vivisimo。

　　(4）垂直搜索引擎

　　是2006年后逐渐兴起的一种搜索引擎。与一般的网络搜索引擎不同，垂直搜索侧重于特定的搜索领域和搜索需求（例如：机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、等），并在其特定的搜索领域有更好的搜索结果。用户体验。与通常需要数千台检索服务器的一般搜索相比，垂直搜索需要较低的硬件成本、特定的用户需求和多种查询方法。准确率比较高！

　　(5）集合搜索引擎：这个搜索引擎类似于元搜索引擎，不同的是它不会同时调用多个搜索引擎进行搜索，而是用户从提供的几个搜索引擎中进行选择，比如作为 HotBot 于 2002 年底推出的搜索引擎。

　　(6）门户搜索引擎

　　例如，MSNSearch 的特点是既没有目录也没有网络数据库，其搜索结果完全来自其他搜索引擎。

　　(7）免费链接列表

　　Free For All Links（简称FFA）：一般只是滚动浏览链接条目，少数类别简单，但规模比Yahoo！目录索引要小得多。

　　总结：SEO离不开搜索引擎。从某种意义上说，SEO就是与搜索引擎博弈的过程！我们做SEO，虽然不需要会写代码，也不需要深入了解搜索引擎的技术细节，但也要了解一些搜索引擎的基本常识，帮助我们优化工作！只有了解了搜索引擎的这些基本概念，我们才能轻而易举地进行网站优化！

　　第二部分：搜索引擎的历史

　　随着当今互联网的发展速度，互联网上的资源远远超出了人类的思维和控制。如果没有搜索引擎，我们根本找不到我们想要的！尤其是随着facebook、twitter、微博等社交网络的发展，移动应用的爆发式增长，无论是从用户数量还是网站的流量来看？或者说社会的影响力远远超过了雅虎、谷歌等曾经的互联网巨头！那么这与SEO有什么关系呢？有网络就有搜索，有搜索就有SEO！

　　那么搜索引擎的历史是怎样的呢？您对我们进行网站优化有什么需求和帮助？不了解搜索引擎的历史就不能做好SEO吗？事实上，情况并非如此。了解搜索引擎的发展历史有助于我们更好地进行网站优化！

　　搜索引擎的发展史，这里就不详细解释了。有兴趣的可以去搜索引擎直通车网站(/index.htm)学习！

　　以下是搜索引擎增长的价值：

　　这些数据揭示了几个问题：

　　（1），搜索市场依然如火如荼！SEO从业者有很大的机会和金矿

　　（2）通过搜索引擎的增长，搜索引擎公司的收入很大一部分来自于网络广告，其中SEM占比很高，SEO是自然搜索排名，不需要很多实*敏*感*词*钱；

　　（3）其他搜索离用户越来越近，SEO施展才华的地方也越来越多！

　　（4）通过不同平台的竞争，社会的关注，体质的不断提升，对于以后做SEO的企业来说也是一大福音！

　　总结：

　　通过搜索引擎的发展速度，我们可以轻松判断SEO在未来的重要性！了解搜索引擎的发展历程，有助于SEO优化者对SEM的发展和转型有更深入的了解！这也有助于我们更好地把握未来的方向！只有与时俱进，才能不断进步！搜索引擎的快速发展。对SEO来说是好事，只要有搜索的地方，就会有排名，有排名就使用SEO技术！我们要做的就是不断关注这些动态变化，以便更好地发挥SEO的优势！

　　我们都知道，互联网的发展速度并不是一般的快！随着互联网的发展，搜索引擎

　　价值不断飙升。您为什么使用这种搜索技术？它是怎么来的？例如，我们的图书馆是一个藏书宝库。当图书馆的书籍和文件随着时间的推移不断增加时，难免会出现问题。很难找到和管理。这个时候我们应该怎么做？该怎么办？通过目录管理，我们可以对图书馆的所有文件进行定期管理。其实我们搜索引擎的原理就是源于这种传统的文件检索技术！那么搜索引擎的真正原理是什么？让我们继续阅读：

　　第 3 部分：搜索引擎如何工作：

　　搜索引擎的工作原理大致可以分为三个阶段：

　　(1）爬取和抓取：

　　即搜索引擎蜘蛛通过跟踪链接地址访问网站页面，并将获取到的网站页面html代码放入自己的数据库中。

　　爬取和爬取是搜索引擎工作的第一步，主要完成数据采集的任务；

　　解释几个关键词：

　　1.蜘蛛：

　　（1）定义：我称它为抓取网页数据时的执行器，其实它是一个计算机程序，因为这个工作过程与现实中的蜘蛛非常相似，专业上称之为搜索引擎

　　蜘蛛！

　　(2）工作过程：蜘蛛程序向网站页面发送访问请求，服务器会返回HTML代码，蜘蛛程序将接收到的代码存入原页面的数据库中。蜘蛛访问任何网站时，都会先访问网站根目录下的robots.txt文件！如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛会遵守通过这些禁止协议，不会抓取那些被禁止的 URL。

　　(3）常见的搜索引擎蜘蛛名称：

　　百度蜘蛛、雅虎中国蜘蛛、谷歌蜘蛛、微软必应蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等！

　　2.点击链接

　　每个人都知道整个互联网是由链接的网站页面组成的！页面和页面通过链接链接。为了更快地采集网站数据，搜索引擎可以使用搜索引擎蜘蛛来跟踪网站页面上的链接，从一个页面爬到下一个页面！这个过程就像蜘蛛在蜘蛛网上爬行一样！这样，蜘蛛就可以快速爬取互联网上的整个网站页面！

　　根据网站链接结构的不同，我们可以将蜘蛛爬行路线分为深度爬行和广度爬行两种

　　A：深度爬行：蜘蛛沿着找到的页面链接向前爬行，直到前面没有其他链接，然后返回第一页，沿着另一个链接向前爬行！

　　B：广度爬行：当蜘蛛在一个页面上发现多个链接时，它们不会沿着一个链接向前爬行

　　OK，但是爬取页面上所有的一级链接，然后继续沿着二级页面找到的链接爬到三级页面！继续这样...

　　所以，我们在做网站的时候，对于网站的结构必须有这两种布局，在优化网站页面的时候也要实现两种链接布局！这样的结构才是搜索引擎蜘蛛群喜欢的！

　　3、有针对性的优化技术引诱蜘蛛

　　A：超读网站和页面权重优化，增加蜘蛛访问次数。

　　B：做好页面更新频率和内容质量

　　C：添加导入链接

　　D：到首页的点击距离；点击距离首页越近，页面权重越高，被蜘蛛爬取的几率越大

　　4.地址库，

　　搜索引擎会建立一个地址数据库来存储页面。目的是避免搜索引擎蜘蛛对网址的重复爬取和爬取。这个地址库收录了已经爬过的页面和被发现后还没有被爬过的页面！

　　这个地址库里的网址是不是一定要被蜘蛛爬到？答案是不

　　有手动输入的*敏*感*词*网站地址，也有站长通过搜索引擎网页提交表单提交的网址！（百度网址提交地址：/search/url_submit.htm）

　　还有一点需要注意的是，如果提交的URL，可能不是收录，这取决于你提交的页面的权重

　　怎么样了！但是，搜索引擎蜘蛛仍然像他们自己一样跟随链接抓取页面！自己买的话味道会更好！

　　5.文件存储

　　搜索引擎蜘蛛爬取的页面都存储在这个原创页面数据库中！这些 URL 中的每一个都有一个唯一的文件编号！

　　6. 复制内容的检测

　　有很多站长遇到过这样的问题：在网站页面发现了蜘蛛，但是页面一直没有收录，不知道怎么回事！事实上，这很简单。很有可能蜘蛛在抓取你的网页时发现了很多低权重的内容，比如：转载或者伪原创内容，蜘蛛就会离开！您的页面不是收录！蜘蛛在爬取页面内容的时候，也会对其进行一定程度的重复内容检测！

　　(2）预处理

　　这个过程是指索引程序对数据库中蜘蛛抓取的网站页面进行处理，主要是做文本提取、中文分词、索引等；

　　这个过程就像一座桥梁。由于搜索引擎数据库中的数据太多，当用户在搜索框中输入关键词时，是不是不能一下子返回排名结果，但往往我们觉得

　　感觉非常快。事实上，起关键作用的是预处理过程！和爬取爬取过程一样，也是在后台提前完成的！

　　有人认为预处理就是索引，但事实并非如此。索引只是预处理的一个主要步骤，那么什么是索引呢？索引是一种对数据库列表中一个或多个列的值进行排序的结构！

　　在建立索引之前有五项工作要做：

　　1.提取文本：

　　我们知道蜘蛛抓取的是收录所有HTML代码的页面，其中其实收录了很多信息：有文字、CSS属性、很多HTML格式标签、javascript程序！但是，后两者不能参与排名内容，也就是说，除了文字之外的所有内容都被删除。这个过程就是去除过程，也叫文本抽取过程，即：抽取出来的东西可以用于排序。已处理网站页面文本内容！

　　注：搜索引擎除了提取可见文本外，还可以提出以下不可见文本内容；例如：METa标签中的文本内容、图片替代文本、FLASH文件替代文本、链接锚文本等！

　　2.中文分词

　　大家都知道中文句子和英文句子有区别，不是字母和汉字的区别，而是

　　是的，英文单词和单词之间有空格。在中文句子中，词和词之间没有分隔符。一句话里的单词都是连在一起的！所以，这个时候，搜索引擎首先要区分哪些词组成一个词，哪些词本身就是一个词！例如：“波司登羽绒服”将分为“波司登”和“羽绒服”两个词；

　　中文分词一般有两种方法：

　　A：字典匹配：分为正向匹配和反向匹配！

　　B：根据搜索统计

　　两者经常混在一起！而且，百度和谷歌分词的相关性有时并不相同。例如，搜索引擎优化在百度是一个完整的词，但在谷歌中分为“搜索”、“引擎”和“优化”。所以在优化的时候一定要注意选中的关键词的特点，后面我们会详细讲解选词技巧。

　　注意：如果我们必须将一个单词放在一起，而不是让搜索引擎的分词技术将它分开怎么办？

　　我们可以这样做：在页面标题、h1标签中，使用粗体表出现关键词！这样，适当的提醒一下搜索引擎，搜索引擎就会知道我们这个词是一个组合，不会分开！

　　3.寻找停用词

　　什么是停用词？是在页面上出现频率较高、对内容没有实质性影响的词；例如：“de”、“de”、“地”等助词，“ah”、“ha”、“ya”等感叹词，“thus”、“to”、“but”等副词或介词是叫停用词！英语有：the、a、an、to、of等。

　　搜索引擎去停用词有两个主要目的：

　　一是：使指标数据的主体更加突出，减少不必要的计算；

　　另一个是：检查您的内容是否与另一个数据库中的内容有大量重复

　　这里需要提醒大家的是：不要随便复制网上的一篇文章文章，加几个停用词自己贴上网站，学完上面的内容，你应该明白了这是什么意思！

　　4.去除噪音：

　　例如：博客中的“分类”、“历史档案”等！

　　5.去重（冲）

　　这意味着什么？如果同一个文章出现在不同的网站或者链接到不同的地址，搜索引擎会认为是一个文件，它不喜欢这样重复的内容，所以它也没有

　　会抓住它！在索引之前，需要对这些内容的重复内容进行识别和删除，这就是所谓的“去重”！

　　如何对搜索引擎进行重复数据删除！我们不需要掌握技术，但要注意几个关键点：

　　A：简单地加上“de”、“earth”和“de”很容易识别，所以一定要小心使用！B：复制别人的文章，简单交换段落结构！这种伪原创也要慎用！

　　这是因为：这样的操作并不能改变文章的具体关键词，而上述做法永远逃不过搜索引擎的去重算法。

　　经过以上五个步骤，搜索引擎就可以得到能够反映页面主要内容的、以文字为基础的独特内容。

　　然后搜索引擎程序通过分词程序对上面提取的关键词进行划分，将每个网站页面转化为关键词的集合！同时记录页面中每个关键词出现的频率、次数、格式（如：标题标签、粗体、H标签、锚文本等）位置（段落），有以权重的形式记录下来！然后放到一个地方，这个地方就是这些复合词的词汇结构——索引库！也称为“词表索引表”

　　什么是前向索引：

　　每个文件夹对应一个ID，文件内容表示为关键词的集合！在搜索引擎的索引库中，此时关键词还没有被转换成关键词ID。这样的数据结构称为前向索引！

　　让我画一个图让你理解：

　　文件标识内容

　　文件夹 1 关键词1, 关键词2, 关键词7, 关键词10… 键

　　L 字

　　文件夹 2 关键词2, 关键词7, 关键词30…关键词M

　　文件夹 3 关键词2, 关键词70, 关键词35……关键词N…………………………

　　文件夹 7 关键词2, 关键词7, …关键词X ……………………

　　文件夹 X 关键词7, 关键词50., 关键词Y

　　什么是倒排索引？

　　因为前向索引不能直接用于排名！例如：如果用户搜索某个关键词2，如果只使用前向索引，则只能找到收录关键词的文件夹，并不能真正返回排名；这时候倒排索引会用到span

　　在倒排索引中关键词成为主键，每个关键词对应一系列文件，每个文件都有要搜索的关键词，这样用户在搜索某个关键词，排序程序可以在倒排列表中找到这个关键词对应的文件！

　　详情请看图片：

　　关键词文档

　　关键词1 文件 1 文件 2, 文件 17, 文件 110...文件 L

　　关键词2 文件 2、文件 7、文件 30...文件 B

　　关键词3 文件 2、文件 7、文件 30……文件 U…………………………

　　关键词6 文件 21、文件 70、文件 300……文件 K………………

　　关键词7 文件 12、文件 27、文件 3...文件 L

　　特殊文件的处理：

　　搜索引擎除了抓取HTNL文件外，还可以抓取以下文件类型：PDF、Word、WPS、PPT、TXT等。但需要注意的是，搜索引擎无法抓取图片、视频、Flash等文本内容. 无法执行脚本和程序！因此，在进行 SEO 时，您网站尽可能少地使用这些！

　　链接关系的计算：

　　搜索引擎在抓取页面时，还必须提前计算出页面上的哪些链接指向了哪些页面。每个页面的传入链接是什么，链接使用的锚文本是什么，正是这些复杂的链接指向关系形成了网站和页面的链接权重！例如：谷歌的PR值就是这些关系的重要体现，后面会详细解释！

　　秩：

　　排名过程就是与用户交互的过程：用户输入关键词后，排名程序调用索引库中的数据，计算相关度，按照一定的格式生成搜索结果页面！

　　1. 搜索词的处理

　　A：中文分词；我以前说过

　　B：去停用词；前面说过；

　　C：指令处理：搜索引擎默认的处理方式是使用关键词之间的“AND”逻辑。例如，当用户搜索“网站Construction”时，搜索引擎默认为用户想要查找的两者。收录“网站”的页面也收录“build”！

　　常见的搜索命令包括加号和减号。还有哪些其他搜索命令？如何使用搜索命令将在后面的章节中详细解释！

　　D：如果用户输入了明显错误的单词或英文单词，搜索引擎会提示用户使用正确的单词或拼写！例如：搜索“建站技巧”

　　E：综合搜索触发器！比如，当你搜索明星时，会出现图片、视频等内容！适合热点话题；

　　2. 文件匹配是如何工作的？

　　这部分可以在倒排索引中快速完成：看图

　　关键词文档

　　关键词1 文件 1 文件 2, 文件 17, 文件 110...文件 L

　　关键词2 文件 1、文件 7、文件 30...文件 B

　　关键词3 文件 2、文件 7、文件 30……文件 U…………………………

　　关键词6 文件 21、文件 70、文件 300……文件 K………………

　　关键词7 文件 12、文件 27、文件 3...文件 L

　　如果用户搜索收录关键词2 和关键词3 的单词，则该组将准确找到关键词2 和关键词 3 个文件并返回！

　　3.如何选择初始子集？

　　网上有几千页，搜索某一个关键词就会有几千万页。如果搜索引擎出现时直接计算页面的相关性，那简直太耗时了！其实用户不需要看这几千个页面，用户只需要一两个有用的页面！这时候搜索引擎会根据用户的搜索词选择100个文件，然后返回，那么应该选择哪100个呢？这取决于您的网站页面与关键词用户搜索的匹配程度！具有高权限的页面将进入搜索引擎的预选子集！

　　4.计算相关性

　　选择子集后，将计算页面的相关性。我们不需要知道搜索引擎如何计算页面的相关性，但我们知道影响页面相关性计算的因素，这将有助于我们进一步

　　优化我们的网站！

　　搜索引擎优化问题包括以下内容：

　　A：关键词的常用程度：例如“Come on UFO”

　　B：词频和密度

　　在没有关键词积累的情况下，一般认为页面上出现的搜索词的数量和密度越高，页面与搜索词的相关性就越高！

　　C：关键词的位置和形式

　　位置研究主要包括：首页还是次要页面？表单主要学习：标题标签，粗体，H1

　　D关键词距离：比如搜索词是“网站Construction”，如果页面中多次出现“网站Construction”这个词，而不是单独的“网站" 后面没有构造，或者说没有构造网站！

　　E：链接分析和页面权限

　　链接和权重的关系主要是锚文本。从锚文本链接导入的搜索词的数量是高度相关的。

　　5.排名过滤和调整

　　When a subset of matching files is selected, the overall ranking is almost determined! 这里做的排名过滤，主要是针对那些依赖作弊手段，有作弊嫌疑的网站！虽然根据之前的工作计算出来的这些网站的权重和相关性都很高，但是搜索引擎也会在最后一步过滤掉这些网站！

　　6.排名展示效果

　　主要展示的是：原创页面的标题标签、描述标签、快照日期等数据！

　　注意：有的网站是搜索引擎需要调用动态生成的页面摘要，而不是页面本身的描述！

　　7、搜索引擎缓存的作用：

　　搜索引擎会记录一些用户经常搜索的词，并将这些搜索排名记录存储在搜索引擎的缓存中。当用户搜索这个词一次，搜索引擎会直接调用缓存中的内容！这样就缩短了搜索响应时间，大大提高了排名效率！

　　总结：

　　以上就是对搜索引擎整个工作流程的详细介绍！这些只是概念性的东西。事实上，搜索引擎的工作步骤和算法远比我们想象的要复杂！不过没关系，只要我们做SEO，了解以上基本概念就够了！搜索引擎的算法还在不断优化中。有兴趣的同学可以多加关注，也将助你在优化上取得新的突破！上面介绍的概念大致就是主流搜索引擎的基本工作原理！

　　小新

　　2012 年 12 月 30 日，星期日

AI时代内容工厂

搜索引擎优化seo知识完全手册(第二课笔记：搜索引擎基础知识和工作原理(基础知识)(图))

0 个评论

发起人