《搜索引擎基础知识和工作原理》最基本的概念

　　大家好，我是做SEO的，几个月来一直在维护和优化按摩师排行榜网站，从中总结了很多经验和知识。今天想分享的是《搜索引擎基础和工作原理》，这是最基本的概念，

　　第 1 部分：什么是搜索引擎？

　　1、定义？

　　官方定义：

　　搜索引擎是指按照一定的策略从互联网上采集信息并使用特定的计算机程序的系统。对信息进行整理和处理后，为用户提供搜索服务，并向用户展示与用户检索相关的相关信息。百度和谷歌是搜索引擎的代表。

　　我的理解是：

　　根据搜索引擎的搜索规则设置目标网站的内容，在用户搜索的时候更好的展示用户想要的内容！这样的服务过程是通过一个叫做搜索引擎的工具实现的！

　　2、分类？

　　(1)全文索引：

　　从整个互联网中提取每条网站信息（主要是网页文本），通过自己的搜索程序（Indexer）建立数据库，俗称“蜘蛛”程序或“机器人”程序，搜索结果直接从它自己的数据库调用。并且可以检索符合用户查询条件的记录，并按照一定的顺序返回结果。全文搜索引擎是目前广泛使用的主流搜索引擎。国外代表谷歌，国内代表百度。

　　SEO 应专注于此类搜索引擎研究：

　　关键词的匹配度、位置、频率、链接质量--

　　因为：当用户使用关键词搜索信息时，搜索引擎会在数据库中搜索。如果找到符合用户要求的网站，它会使用一种特殊的算法——通常是根据网页计算出来的。网页的相关性和排名级别，然后根据相关性，将这些网页链接依次返回给用户。该引擎的特点是搜索率较高。

　　(2)目录索引

　　用户可以根据分类目录找到自己需要的信息，无需依赖关键词(Keywords)进行查询。虽然它有搜索功能，但不能称其为严格意义上的真正搜索引擎。它只是按目录分类的网站链接列表。最具代表性的目录索引是雅虎、新浪目录搜索、hao123。

　　(3)元搜索引擎

　　(META Search Engine) 接受用户的查询请求后，同时在多个搜索引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，最具代表性的中文元搜索引擎是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，比如Dogpile；一些根据自定义规则重新排列和组合结果，例如 Vivisimo。

　　(4)垂直搜索引擎

　　是2006年后逐渐兴起的一类搜索引擎。与一般的网络搜索引擎不同，垂直搜索侧重于特定的搜索领域和搜索需求（例如：机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等），并在其特定的搜索领域有更好的搜索范围。用户体验。与一般搜索中的数千台搜索服务器相比，垂直搜索需要较低的硬件成本、特定的用户需求以及多种查询方式。准确率比较高！

　　(5)集成搜索引擎：这个搜索引擎类似于元搜索引擎。不同的是它不会同时调用多个搜索引擎进行搜索，而是用户从提供的多个搜索引擎中进行选择，比如HotBot在2002年年底推出的搜索引擎。

　　(6)portal 搜索引擎

　　例如MSNSearch，它既不是目录也不是网页数据库，其搜索结果完全来自其他搜索引擎。

　　(7)免费链接列表

　　所有链接免费（简称FFA）：通常，它只是滚动链接条目。其中一些有简单的目录，但规模比 Yahoo! 小得多。和其他目录索引。

　　总结：SEO离不开搜索引擎。从某种意义上说，SEO是一个与搜索引擎博弈的过程！我们做SEO，虽然不需要写代码，也不需要深入了解搜索引擎技术细节，但是也应该了解一些搜索引擎的基本常识，才能有利于我们的优化工作！只有了解了搜索引擎的这些基本概念，我们才能做好网站optimization！

　　第 2 部分：搜索引擎发展的历史

　　随着当今互联网的发展速度，互联网上的资源已经远远超出了人类的想象和控制。如果没有搜索引擎，我们根本找不到我们想要的！尤其是Facebook、Twitter、微博等社交网络的发展，移动应用的爆发式增长，无论是在用户数量、网站的流量方面？或者社会影响力远超雅虎、谷歌等互联网巨头！也就是说，这些和 SEO 有什么关系？有网络就有搜索，有搜索就是SEO！

　　那么搜索引擎的发展历史是怎样的？我们对网站optimization 有什么需求和帮助？不了解搜索引擎的发展历史就不能做SEO吗？其实不是这样的，了解搜索引擎的发展历程会帮助我们更好的网站optimization！

　　这里就不详细解释搜索引擎的发展历史了。有兴趣的可以去搜索引擎直达列车网站上学习！

　　我们来看看搜索引擎的增长带来的价值：

　　这些数据可以解释几个问题：

　　（1)，搜索市场依旧火爆！对于SEO人来说，机会多多，金矿多多

　　(2)通过搜索引擎的增长，搜索引擎公司的收入很大一部分来自网络广告，其中SEM占比很高，SEO是自然搜索排名，无需很多钱。同样的价值；

　　(3)其他搜索离用户越来越近，SEO有更多施展才华的地方！

　　(4)通过不同平台的竞争，社会的关注，身体素质的不断提高，也是未来SEO公司的好福音！

　　总结：

　　通过搜索引擎的发展速度，我们可以很容易的判断出未来SEO的重要性！了解搜索引擎的发展历史，有助于SEO优化者对SEM的发展和转型有更深入的了解！这也有利于我们很好的把握未来的方向！只有与时俱进，才能不断进步！搜索引擎发展迅速。对SEO来说是个好东西，只要搜索的地方就会有排名，排名就会用到SEO技术！我们要做的就是不断关注这些动态变化，才能更好地发挥SEO的优势！

　　谁都知道互联网的发展没有那么快！随着互联网的发展，搜索引擎的价值不断飙升。你为什么使用这种搜索技术？它是怎么出现的？例如：我们的图书馆是图书的宝库，当图书馆里的图书和档案随着时间的推移不断增加时，难免会出现问题，很难找到，也很难管理。这个时候我们应该怎么做？通过目录管理，我们可以实现对库中所有文件的定期管理。其实我们的搜索引擎原理就是源于此。一种传统的文档检索技术！那么搜索引擎的真正原理是什么呢？我们继续往下看：

　　第 3 部分：搜索引擎的工作原理：

　　搜索引擎的工作原理大致可以分为三个阶段：

　　(1)爬行爬行：

　　搜索引擎蜘蛛通过跟踪链接地址访问网站页面，并将获取到的网站页面html代码放入自己的数据库中。

　　爬取和爬取是搜索引擎工作的第一步，主要完成数据采集的任务；

　　解释几个关键词：

　　1、蜘蛛：

　　(1)定义：我在抓取网页数据时称它为执行器。其实它是一个计算机程序。因为工作过程与现实中的蜘蛛非常相似，所以专业上称之为搜索引擎。蜘蛛！

　　(2)工作流程：蜘蛛程序向网站页面发送访问请求，服务器返回HTML代码，蜘蛛程序将接收到的代码存储到原创页面的数据库中。访问任何网站网站root目录下的robots.txt文件都会被首先访问！如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守这些禁令，不会抓取那些禁止的网址。

　　(3)常见搜索引擎蜘蛛名：

　　百度蜘蛛、雅虎中国蜘蛛、谷歌蜘蛛、微软必应蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等！

　　2、跟踪链接

　　大家都知道，整个互联网是由相互连接的网站页面组成的！页面和页面通过链接连接。搜索引擎可以通过搜索引擎更快地采集网站数据。蜘蛛跟踪网站页面上的链接并从一页抓取到下一页！这个过程和蜘蛛在蜘蛛网上爬行是一样的！这样蜘蛛就可以快速爬取整个网站网络页面！

　　根据网站link结构的不同，我们可以将蜘蛛爬行路线分为深度爬行和广度爬行两种类型

　　A：深度爬行：蜘蛛沿着找到的页面链接向前爬行，直到前面没有其他链接，然后回到第一页，沿着另一个链接向前爬行！

　　B：Breadth crawling：当蜘蛛在一个页面上发现多个链接时，它不会沿着一个链接向前爬，而是爬取页面上所有的一级链接，然后沿着第一个链接继续。在二级页面找到的链接爬到三级页面！继续这样……

　　所以，我们在做网站的时候，对于网站的结构我们必须有这两种布局，而且我们在优化网站页面的时候也要做好这两种链接布局！这个结构是搜索引擎蜘蛛群喜欢的！

　　3.针对性优化技术引诱蜘蛛

　　A：读取网站，优化页面权重，增加蜘蛛访问次数。

　　B：做好页面更新频率和内容质量

　　C: 添加导入链接

　　D：离首页的点击距离；离首页的点击距离越近，页面权重越高，蜘蛛爬行的机会就越大。

　　4、地址库，

　　搜索引擎会建立一个地址库来存储页面。目的是为了避免搜索引擎蜘蛛重复抓取和抓取网址。这个地址库中的页面有被爬取过的，有的被发现后还没有被爬取。页！

　　这个地址库中的网址一定要被蜘蛛爬取吗？答案是否定的

　　有手动输入的seed网站地址，也有站长通过搜索引擎网页提交表单提交的网址！

　　还有一点需要注意的是：一旦提交了网址，可能不是收录，这取决于你提交的页面的权重！但是搜索引擎蜘蛛还是喜欢跟着链接自己爬网页！自己拿来吃更好吃！

　　5、文件存储

　　搜索引擎蜘蛛抓取到的页面都存储在这个原创页面数据库中！每个 URL 都有唯一的文件编号！

　　6.检测复制内容

　　很多站长都遇到过这样的问题：我发现网站页面有蜘蛛在爬，但是页面一直没有收录，不知道怎么回事！其实很简单，很有可能就是蜘蛛在爬你的网页的时候发现了很多低权重的内容，比如：转载或者伪原创内容，蜘蛛就会离开！您的网页没有被收录抓取！蜘蛛在爬取页面时也会对内容进行一定程度的复制内容检测！

　　(2)预处理

　　这个过程是指：索引程序对数据库中蜘蛛爬取的网站页面进行处理，主要做文本提取、中文分词、索引等；

　　这个过程起到了桥梁的作用。因为搜索引擎数据库中的数据太多，当用户在搜索框中输入关键词时，不可能一下子返回排名结果，但是我们经常感觉很快，其实关键作用就是预处理这个过程！和爬虫过程一样，也是在后台提前完成的！

　　有些人认为预处理就是索引。事实上，事实并非如此。索引只是预处理的一个主要步骤。那么什么是索引？索引是一种对数据库列表中一个或多个列的值进行排序的结构。！

　　索引前要完成的五项任务：

　　1、提取文本：

　　我们知道蜘蛛爬取了一个收录所有HTML代码的页面，其中实际上收录了很多信息：有文本、CSS属性、大量HTML格式标签、javascript程序！但后两者不能参与来自排名内容，也就是说，除文字外的一切都被删除了。这个过程就是去除过程，也叫提取文本的过程，即：提取出网站页文本内容，可用于排名处理！

　　注意：除了提取可见文本，搜索引擎还可以提出以下不可见文本内容；例如：METa标签中的文本内容、图片替代文本、FLASH文件替代文本、链接锚文本等！

　　2、中文分词

　　大家都知道中文句子和英文句子是有区别的。不是字母和汉字的区别，而是英文单词和单词之间有空格。在汉语句子中，词与字没有区别。分隔符，一个句子中的单词都连在一起！所以，这个时候搜索引擎首先要区分哪些词构成一个词，哪些词本身就是一个词！例如：“波司登羽绒服” 分为“波司登”和“羽绒服”两个词；

　　中文分词一般有两种方法：

　　A：字典匹配：分为正向匹配和反向匹配！

　　B：根据搜索统计

　　两者经常一起使用！而且分词在百度和谷歌中的相关性有时是不同的，例如：搜索引擎优化，在百度中是一个完整的词，但在谷歌中，它分为“搜索”、“引擎”和“优化”是三个部分，所以在做优化的时候一定要注意关键词的特性。后面我们会详细讲解选词技巧。

　　注意：如果一定要合并一个词，如果搜索引擎的分词技术不分离怎么办？

　　我们可以这样做：在页面标题、h1标签中，用粗体将关键词加粗！这样搜索引擎就会得到适当的提醒，搜索引擎就会知道我们的词是组合。分开了！

　　3、去停止词

　　什么是停用词？是页面上出现频率高，对内容没有实质性影响的词；例如：“的”、“得”、“地”等助词，“啊”“哈”“雅”等感叹词，“从而”、“以”、“曲”等副词或介词等. 这些词被称为停用词！在英语中：the、a、an、to、of 等

　　搜索引擎停用词主要有两个目的：

　　一是：使索引数据的主体更加突出，减少不必要的计算；

　　另一个是：检查您的内容是否与另一个数据库中的内容重复。

　　这里需要提醒大家：不要只是复制一段文章，以后在网上加上几个停用词，粘贴到你的网站上。了解了上面的内容，你应该就知道是什么意思了。！

　　4、去除噪音：

　　示例：博客中的“类别”和“历史档案”！

　　5、去重（冲）

　　你是什么意思？如果同一个文章出现在不同的网站或者不同地址的链接上，搜索引擎会认为是一个文件，不喜欢这种重复的内容。所以它不会爬行！在建立索引之前，需要对内容进行识别并删除重复的内容，这就是所谓的“去重”！

　　搜索引擎如何去除重复！我们不需要掌握技术，但要注意几个关键点：

　　A：简单地加上“de”、“land”和“de”，很容易被认出来，一定要慎重使用！

　　B：复制别人的文章，简单交换段落结构！这种伪原创也要慎用！

　　这是因为：这种操作无法改变文章具体的关键词，以上方法也逃不过搜索引擎的去重算法。

　　经过以上五个步骤，搜索引擎将能够以单词为单位获得能够反映页面主要内容的独特内容。

　　然后搜索引擎程序通过分词程序将上面提取的关键词进行分割，将每个网站页面转换成关键词的集合！同时，记录每个关键词在页面（前几段）的频率、次数、格式（如：标题标签、粗体、H标签、锚文本等），这些是全部以重量的形式记录！然后放到一个地方，这个地方就是专门为这些复合词放置的词汇结构——索引库！也作为“词汇索引表”提交

　　什么是正向索引：

　　每个文件夹对应一个ID，文件内容表示为关键词!在搜索引擎的索引库中，此时关键词还没有转化为关键词ID，所以该数据结构称为正向索引！

　　画个图让大家看懂：

　　文件 ID

　　内容

　　文件夹 1

　　关键词1、关键词2、关键词7、关键词10……关键词L

　　文件夹 2

　　关键词2、关键词7、关键词30……关键词M

　　文件夹 3

　　关键词2、关键词70、关键词35……关键词N

　　……

　　……………………

　　文件夹 7

　　关键词2、关键词7、……关键词X

　　……

　　………………

　　文件夹 X

　　关键词7、关键词50.、关键词Y

　　什么是倒排索引？

　　因为前向索引不能直接用于排名！例如：如果用户搜索某个关键词2，如果仅从前向索引中，他只能找到收录关键词的文件夹，而无法实际返回排名；这个时候会用到倒排索引

　　关键词成为倒排索引中的主键，每个关键词对应一系列文件，每个文件出现关键词被搜索，这样用户就在搜索某个关键词处到时候排序程序就可以在倒排列表中找到这个关键词对应的文件了！

　　详情请看图片：

　　关键词

　　文件

　　关键词1

　　文件 1 文件 2、文件 17、文件 110...文件 L

　　关键词2

　　文件 2、文件 7、文件 30...文件 B

　　关键词3

　　文件 2、文件 7、文件 30...文件 U

　　……

　　……………………

　　关键词6

　　文件 21、文件 70、文件 300...文件 K

　　……

　　………………

　　关键词7

　　文件 12、文件 27、文件 3...文件 L

　　特殊文件的处理：

　　搜索引擎除了抓取HTNL文件外，还可以抓取以下文件类型：PDF、Word、WPS、PPT、TXT等，但注意：搜索引擎不能抓取图片、视频、Flash等文本无法执行内容、脚本和程序！所以你在做SEO的时候，网站应该尽量少用这些！

　　链接关系的计算：

　　当搜索引擎抓取一个页面时，它还必须预先计算哪些链接指向页面上的哪些页面。每个页面上导入的链接是什么，链接中使用了哪些锚文本？正是这些复杂的链接指向关系，构成了网站和页面的链接权重！例如：Google 的 PR 值就是这些关系的重要体现。详细！

　　排名：

　　排名过程是与用户交互的过程：用户输入关键词后，排名程序调用索引库中的数据，计算相关性，生成一定格式的搜索结果页面！

　　1、搜索词的处理过程

　　A：中文分词；我之前说过

　　B：转到停止词；我之前说过；

　　C：命令处理：搜索引擎默认的处理方式是关键词之间使用“与”逻辑。例如，当用户搜索“网站建筑”时，搜索引擎默认为用户想要查找的内容。 “网站”还包括“构建”页面！

　　常见的搜索命令有加号和减号。还有哪些其他搜索命令？怎么使用和使用搜索命令，后面我会出一节详细讲解！

　　D：如果用户输入明显错误的单词或英文单词，搜索引擎会提示用户使用正确的单词或拼写！例如：搜索“建站技巧”

　　E：集成搜索触发器！比如搜索明星，就会有图片、视频等内容！适合热点话题；

　　2.文件匹配是如何进行的？

　　这部分可以在倒排索引中快速完成：看图

　　关键词

　　文件

　　关键词1

　　文件 1 文件 2、文件 17、文件 110...文件 L

　　关键词2

　　文件 1、文件 7、文件 30...文件 B

　　关键词3

　　文件 2、文件 7、文件 30...文件 U

　　……

　　……………………

　　关键词6

　　文件 21、文件 70、文件 300...文件 K

　　……

　　………………

　　关键词7

　　文件 12、文件 27、文件 3...文件 L

　　如果用户搜索同时收录关键词2和关键词3的词，那么群会准确找到同时收录关键词2和关键词3的文件，然后返回！

　　3.如何选择初始子集？

　　互联网上有数千个页面，搜索某个关键词就会有数千万个页面。如果搜索引擎上来直接计算页面的相关性，简直太费时了呀！其实用户不需要看这几千个页面，用户只需要一两个有用的页面！这时候搜索引擎会根据用户的搜索词选择100个文件，然后返回，那么选择哪100个呢？这取决于您的网站页面与用户搜索的关键词之间的相对匹配！权重高的页面会进入搜索引擎的预选子集！

　　4、计算相关性

　　选择子集后，将计算页面的相关性。我们不需要知道搜索引擎是如何计算页面相关度的，但是我们知道影响页面相关度计算的因素，这将有助于我们进一步优化我们的网站！

　　SEO 关注以下因素：

　　A：关键词的频率：例如，“来吧 UFO”

　　B：词频和密度

　　在没有关键词积累的情况下，一般认为页面上出现的搜索词的数量和密度越高，页面与搜索词的相关性就越高！

　　C：关键词的位置和形式

　　定位的主要研究是：首页还是副页？主要研究形式：标题标签、粗体、H1

　　D关键词距离：例如，如果搜索词是“网站建筑”，如果页面上多次出现“网站建筑”这个词，而不是单独的“网站”是没有构造，还是没有构造网站！

　　E：链接分析和页面权重

　　链接和权重的关系主要是锚文本。导入多少搜索词作为锚文本链接更相关

　　5、位置过滤与调整

　　选择匹配的文件子集后，整体排名就差不多确定了！这里做的排名过滤主要针对那些涉嫌作弊的网站！虽然根据之前的工作，最终这些网站的权重和相关性都非常高，但是搜索引擎会在最后一步过滤掉这些网站！

　　6、排名显示效果

　　主要显示为：原页面的标题标签、描述标签、快照日期等数据！

　　注意：有些网站是搜索引擎需要调用动态生成的页面摘要，而不是调用页面本身的描述！

　　7.搜索引擎缓存的作用：

　　搜索引擎会记录一些用户经常搜索的词，并将这些搜索到的排名记录存储在搜索引擎的缓存中。当用户搜索该词一次时，搜索引擎会直接调用该内容！这样就缩短了搜索响应时间，大大提高了排名效率！

　　总结：

　　以上是对搜索引擎整个工作过程的详细介绍！这些只是概念上的东西。事实上，搜索引擎的工作步骤和算法远比我们想象的复杂！不过没关系，对于SEO我们只要了解以上这些基本概念就够了！搜索引擎算法还在优化中，感兴趣的同学可以多加关注，也有利于优化的新突破！以上介绍的概念大致就是主流搜索引擎的基本工作原理！

　　小新

　　2012 年 12 月 30 日星期日晚上

AI时代内容工厂

《搜索引擎基础知识和工作原理》最基本的概念

0 个评论

发起人