搜索引擎优化知识完全手册(项目招商找A5快速获取精准代理名单大家好，我是专门从事)

　　项目招商找A5快速获取精准代理商名单

　　大家好，我是SEO专业的，几个月来一直在维护和优化按摩师排行榜网站，从中总结了很多经验和知识。今天想分享的是《搜索引擎基础知识和工作原理》。这是最基本的概念。

　　第 1 部分：什么是搜索引擎？

　　1.定义？

　　官方定义：

　　搜索引擎是指按照一定的策略从互联网上采集信息，并使用特定的计算机程序，对信息进行组织和处理，为用户提供检索服务，并向用户展示与用户检索相关的相关信息的系统。百度和谷歌是搜索引擎的代表。

　　我的理解是：

　　根据搜索引擎的搜索规则设置目标网站的内容，在用户搜索的时候更好的展示用户想要的内容！这样的服务过程是通过一个叫做搜索引擎的工具实现的！

　　2. 分类？

　　(1)全文索引：

　　从整个互联网中提取每条网站信息（主要是网页文本），通过自己的搜索程序（Indexer）建立数据库，俗称“蜘蛛”程序或“机器人”程序，搜索结果直接调用来自它自己的数据库。并且可以检索符合用户查询条件的记录，并按照一定的顺序返回结果。全文搜索引擎是目前广泛使用的主流搜索引擎。国外的代表是谷歌，国内的代表是大名鼎鼎的百度。

　　SEO 应该专注于此类搜索引擎研究：

　　关键词的匹配度、位置、频率、链接质量——

　　因为：当用户搜索带有关键词的信息时，搜索引擎会在数据库中搜索。如果找到符合用户要求的网站，它会使用一种特殊的算法——通常是从网页中计算出每个网页的相关性和排名级别，然后根据相关性级别，返回这些网页链接给用户按顺序。该引擎的特点是搜索率相对较高。

　　(2) 目录索引

　　用户可以根据分类目录找到自己需要的信息，不依赖关键词(Keywords)查询。虽然它有搜索功能，但不能称其为严格意义上的真正搜索引擎。它只是按目录分类的网站链接列表。最具代表性的目录索引是雅虎、新浪目录搜索、hao123。

　　(3) 元搜索引擎

　　(META Search Engine) 接受用户的查询请求后，同时在多个搜索引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，最具代表性的中文元搜索引擎是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，比如Dogpile；一些根据自定义规则重新排列和组合结果，例如 Vivisimo。

　　(4) 垂直搜索引擎

　　是2006年后逐渐兴起的一类搜索引擎。与一般的网络搜索引擎不同，垂直搜索侧重于特定的搜索领域和搜索需求（例如：机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、等），并在其特定的搜索领域有更好的搜索范围。用户体验。与一般搜索中的数千台搜索服务器相比，垂直搜索需要较低的硬件成本、特定的用户需求以及多种查询方式。准确率比较高！

　　（5)集成搜索引擎：这个搜索引擎类似于元搜索引擎。不同之处在于它不会同时调用多个搜索引擎进行搜索，而是用户从提供的多个搜索引擎中进行选择，例如2002年底作为HotBot推出搜索引擎。

　　(6)门户搜索引擎

　　例如，MSNSearch 既不是目录也不是网页数据库，其搜索结果完全来自其他搜索引擎。

　　(7)免费链接列表

　　免费为所有链接（简称FFA）：通常，它只是滚动链接条目。其中一些有简单的目录，但规模比 Yahoo! 小得多。和其他目录索引。

　　总结：SEO离不开搜索引擎。从某种意义上说，SEO是一个与搜索引擎博弈的过程！虽然我们做SEO，但我们不需要写代码，也不需要深入了解搜索引擎的技术细节。还应该了解一些搜索引擎的基本常识，对我们的优化工作有好处！只有了解了搜索引擎的这些基本概念，我们才能做好网站优化！

　　第 2 部分：搜索引擎的历史

　　随着当今互联网的发展速度，互联网上的资源已经远远超出了人类的想象和控制。如果没有搜索引擎，我们将找不到我们想要的！尤其是facebook、twitter、微博等社交网络的发展，移动应用的爆发式增长，无论是在用户数量、网站的流量方面？或者社会影响力远超雅虎、谷歌等互联网巨头。话说回来，这些和SEO又有什么关系呢？只要有网络，就有搜索，有搜索的地方，就是SEO！

　　那么搜索引擎的发展历史是怎样的呢？我们做网站优化有什么需要和帮助？不了解搜索引擎的发展历史就不能做SEO吗？其实并非如此，了解搜索引擎的发展历程，会对我们做网站优化更有帮助！

　　搜索引擎的发展历史我这里就不详细解释了。有兴趣的可以到搜索引擎直达列车网站学习！

　　我们来看看搜索引擎的增长带来的价值：

　　这些数据可以解释几个问题：

　　（1)，搜索市场还在火爆！SEO有很大的机会和金矿

　　（2)通过搜索引擎的增长，搜索引擎公司的收入有很大一部分来自网络广告，其中SEM占比很高，SEO是自然搜索排名。同样可以做到没有很多钱的价值；

　　（3) 其他搜索离用户越来越近，SEO有更多施展才华的地方！

　　（4)通过不同平台的竞争，社会的关注，身体素质的不断提高，对于未来做SEO的企业来说也是一个福音！

　　总结：

　　通过搜索引擎的发展速度，我们可以轻松判断未来SEO的重要性！了解搜索引擎的发展历史，有助于SEO优化者对SEM的发展和转型有更深入的了解！这对我们也是有好处的。把握好未来方向！只有与时俱进，才能不断进步！搜索引擎发展迅速。对SEO来说是个好东西，只要搜索到的地方都会有排名，排名会用到SEO技术！我们要做的就是不断关注这些动态变化，才能更好的发挥SEO的优势！

　　大家都知道，互联网的发展没有那么快！随着互联网的发展，搜索引擎的价值不断飙升。你为什么使用这种搜索技术？它是怎么出现的？例如：我们的图书馆是图书的宝库，当图书馆里的图书和档案随着时间的推移不断增加时，难免会出现问题，很难找到，也很难管理。这个时候我们应该怎么做？通过目录管理，我们可以实现对库中所有文件的定期管理。其实我们的搜索引擎原理就是源于此。一种传统的文档检索技术！那么搜索引擎的真正原理是什么呢？我们继续往下看：

　　第三部分：搜索引擎的工作原理：

　　搜索引擎的工作原理大致可以分为三个阶段：

　　（1)爬行爬行：

　　即搜索引擎蜘蛛通过跟踪链接地址访问网站页面，并将获取到的网站页面html代码放入自己的数据库中。

　　爬取和爬取是搜索引擎工作的第一步，主要完成数据采集的任务；

　　解释几个关键词：

　　1.蜘蛛：

　　（1) 定义：我在抓取网页数据时称它为执行器。其实它是一个计算机程序，因为工作过程与现实中的蜘蛛非常相似。专业人士称之为搜索引擎蜘蛛。！

　　（2) 工作流程：蜘蛛程序向网站页面发送访问请求，服务器返回HTML代码，蜘蛛程序将接收到的代码存储到原创页面的数据库中。蜘蛛访问任何网站时，都会首先访问网站根目录下的robots.txt文件！如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛会遵守这些禁令，不会抓取那些被禁止的网址。

　　（3) 常见搜索引擎蜘蛛名：

　　百度蜘蛛、雅虎中国蜘蛛、谷歌蜘蛛、微软必应蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等！

　　2. 追踪链接

　　大家都知道，整个互联网都是由链接的网站页面组成的！页面和页面通过链接连接。搜索引擎可以通过搜索更快地采集网站数据。引擎蜘蛛跟随网站页面上的链接，从一页抓取到下一页！这个过程和蜘蛛在蜘蛛网上爬行是一样的！这样蜘蛛就可以快速抓取整个互联网网站页面！

　　根据网站的不同链接结构，我们可以将蜘蛛的爬行路线分为两种：深度爬行和广度爬行

　　A：深度爬行：蜘蛛沿着找到的页面链接向前爬行，直到前面没有其他链接，然后回到第一页，沿着另一个链接向前爬行！

　　B：广度爬行：当蜘蛛在一个页面上发现多个链接时，它不会沿着一个链接向前爬，而是爬取页面上所有的一级链接，然后继续沿着二级页面找到的链接页面爬到第三页！继续这样……

　　所以，我们在做网站的时候，对于网站的结构一定要有这两种布局，而且在优化网站页面的时候也要做这两种链接布局！这样的结构才是搜索引擎蜘蛛群喜欢的！

　　3、针对性优化技术引诱蜘蛛

　　A：阅读网站，优化页面权重，增加蜘蛛访问量。

　　B：做好页面更新频率和内容质量

　　C：增加导入链接

　　D：离首页的点击距离；离首页的点击距离越近，页面权重越高，蜘蛛爬行的机会就越大

　　4.地址库，

　　搜索引擎会建立一个地址库来存储页面，目的是为了防止搜索引擎蜘蛛反复抓取和抓取网址。这个地址库里有页面被爬取了，还有被发现后没有被爬取的页面！

　　这个地址库中的URL一定要被蜘蛛爬取吗？答案是不

　　有手动输入的*敏*感*词*网站地址，也有站长通过搜索引擎网页提交表单提交的网址！

　　还有一点需要注意的是：URL一旦提交，可能就不能成为收录了。这取决于您提交的页面的权重！但是搜索引擎蜘蛛还是喜欢跟着链接自己爬网页！这样更好吃！

　　5. 文件存储

　　搜索引擎蜘蛛抓取到的页面都存储在这个原创页面数据库中！每个 URL 都有一个唯一的文件编号！

　　6. 复制内容检测

　　很多站长都遇到过这样的问题：我发现网站页面上有蜘蛛爬行，但是页面没有被收录。我不知道怎么回事！它实际上非常简单而且非常好。可能是蜘蛛在爬你的网页时发现了很多权重较低的内容，比如：转载或者伪原创的内容，蜘蛛就会离开！您的网页不会是收录！Spider在抓取页面内容的时候，也会进行一定程度的复制内容检测！

　　(2) 预处理

　　这个过程是指：索引程序对数据库中蜘蛛爬取的网站页面进行处理，主要做文本提取、中文分词、索引等；

　　这个过程起到了桥梁的作用。因为搜索引擎数据库中的数据太多，当用户在搜索框中输入关键词时，不可能一下子返回排名结果，但很多时候我们都觉得非常快，其实就是预处理过程起着关键作用！和爬虫过程一样，也是在后台提前完成的！

　　有些人认为预处理就是索引。事实上，情况并非如此。索引只是预处理的一个主要步骤。那么什么是索引？索引是一种对数据库列表中一个或多个列的值进行排序的结构！

　　在索引之前有五个任务需要完成：

　　1.提取文本：

　　我们知道蜘蛛爬行的页面收录了所有的HTML代码，里面其实收录了很多信息：有文本，CSS属性，很多HTML格式标签，javascript程序！但后两者不能参与排名内容。这意味着除文本外的所有内容都已删除。这个过程就是去除过程，也叫提取文本的过程，即：提取网站页面的文本内容，可以用于排名处理！

　　注：除了提取可见文本，搜索引擎还可以提出以下不可见文本内容；例如：METa标签中的文本内容、图片替代文本、FLASH文件替代文本、链接锚文本等！

　　2.中文分词

　　大家都知道中文句子和英文句子是有区别的。不是字母和汉字的区别。相反，英语单词和单词用空格分隔。在中文句子中，单词之间没有分隔符。一句话里的词都是连在一起的！所以，这个时候搜索引擎首先要区分哪些词构成一个词，哪些词本身就是一个词！例如：“波司登羽绒服”将分为“波司登”和“羽绒服”两个词；

　　中文分词一般有两种方法：

　　A：字典匹配：分为正向匹配和反向匹配！

　　B：根据搜索统计

　　两者经常混在一起！并且百度和谷歌中分词的相关性有时是不同的。例如，搜索引擎优化在百度中是一个完整的词，但在谷歌中却分为“搜索”。“引擎”和“优化”是三个部分，所以在做优化的时候一定要注意所选关键词的特性。后面我们会详细讲解选词技巧。

　　注意：如果我们要组合一个词而不让搜索引擎的分词技术将它分开怎么办？

　　我们可以这样做：在页面标题、h1标签中，使用粗体将关键词! 这样搜索引擎就会得到适当的提醒，搜索引擎就会知道我们这个词是组合词，不会被使用。分开了！

　　3.转到停用词

　　什么是停用词？那些经常出现在页面上并且对内容没有实质性影响的词；例如：“的”、“得”、“地”、“啊”、“哈”、“啊”等。这些词被称为停用词！英文：the、a、an、to、of等。

　　搜索引擎停用词有两个主要目的：

　　一是使指标数据的主体更加突出，减少不必要的计算量；

　　另一种是：检查你的内容是否与另一个数据库中的内容有很多重复

　　在这里我需要提醒大家的是：以后不要随便在网上复制一篇文章的文章，加几个停用词贴在你的网站上。了解了上面的内容，你应该就知道是什么意思了。NS！

　　4.去除噪音：

　　示例：博客中的“类别”和“历史档案”！

　　5.去除（冲）

　　你的意思是？如果相同的文章出现在不同的网站或者链接到不同的地址，搜索引擎会认为是文件，不喜欢这样重复的内容，所以不会爬！在索引之前，需要对内容进行识别并删除重复的内容，这就是所谓的“去重”！

　　如何删除繁重的搜索引擎！我们不需要掌握技术，但要注意几个关键点：

　　答：只要加上“得”、“地”、“得”，很容易辨认，一定要慎重使用！

　　B：复制别人的文章，简单交换段落结构！这种伪原创也一定要慎用！

　　这是因为：这样的操作无法改变文章的具体关键词，上述方法也逃不过搜索引擎的去重算法。

　　经过以上五个步骤，搜索引擎将能够获得能够反映页面主要内容的独特的、基于词的内容。

　　然后搜索引擎程序通过分词程序将上面提取的关键词进行分割，将每个网站页面转换成关键词的集合！同时，记录每个关键词出现在关键词的频率、次数、格式（如：标题标签、粗体、H标签、锚文本等）和位置（段落）页面，这些都是以重量的形式记录的！然后把它放到一个地方，这个地方就是专门放置这些复合词的词汇结构——索引库！也作为《词汇索引表》移交

　　什么是前向指数：

　　每个文件夹对应一个ID，文件内容表示为关键词! 在搜索引擎的索引库中，此时关键词还没有转化为关键词 ID ，这样的数据结构叫做正向索引！

　　画个图让大家明白：

　　文件编号

　　内容

　　文件夹 1

　　关键词1、关键词2、关键词7、关键词10……关键词L

　　文件夹 2

　　关键词2,关键词7,关键词30……关键词M

　　文件夹 3

　　关键词2,关键词70,关键词35……关键词N

　　...

　　……………………

　　文件夹 7

　　关键词2,关键词7,……关键词X

　　...

　　………………

　　文件夹 X

　　关键词7、关键词50.、关键词是

　　什么是倒排索引？

　　因为前向索引不能直接用于排名！例如，如果用户搜索某个关键词2，如果仅从前向索引，只能找到收录关键词的文件夹，而实际上无法返回排名。;此时会使用倒排索引

　　在倒排索引中，关键词成为主键。每个关键词对应一系列文件，每个文件都有关键词需要搜索，这样用户在搜索某个关键词，排序程序就可以找到对应的文件到倒排列表中的这个关键词！

　　详情请看图片：

　　关键词

　　文档

　　关键词1

　　文件 1 文件 2、文件 17、文件 110...文件 L

　　关键词2

　　文件 2、文件 7、文件 30...文件 B

　　关键词3

　　文件 2、文件 7、文件 30...文件 U

　　...

　　……………………

　　关键词6

　　文件 21、文件 70、文件 300...文件 K

　　...

　　………………

　　关键词7

　　文件 12、文件 27、文件 3...文件 L

　　特殊文件的处理：

　　除了抓取HTNL文件外，搜索引擎还可以抓取以下文件类型：PDF、Word、WPS、PPT、TXT等，但需要注意的是：搜索引擎不能抓取图片、视频、Flash等文本内容。无法执行脚本和程序！所以做SEO的时候，尽量少用网站！

　　链接关系的计算：

　　搜索引擎抓取页面后，还必须提前计算哪些链接指向页面上的哪些页面。每个页面导入的链接是什么，链接中使用了哪些锚文本？正是这些复杂的链接指向关系，构成了网站和页面的链接权重！例如：Google的PR值就是这些关系的重要体现，后面详解！

　　排行：

　　排名过程是与用户交互的过程：用户进入关键词后，排名程序调用索引库中的数据，计算相关性，生成一定格式的搜索结果页面！

　　1. 检索词的处理

　　A：中文分词；我之前说过

　　B：转到停用词；我之前说过；

　　C：指令处理：搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。例如，当用户搜索“网站建”时，搜索引擎默认为用户想要查找的内容。收录“网站”和“Build”的页面！

　　常见的搜索命令有加号和减号。还有哪些其他搜索命令？如何使用搜索命令，后面我会拿出详细的小节来详细讲解！

　　D：如果用户输入明显错误的单词或英文单词，搜索引擎会提示用户使用正确的单词或拼写！例如：搜索“建站技巧”

　　E：集成搜索触发器！比如搜索明星，就会有图片、视频等内容！适合热点话题；

　　2. 文件匹配是如何进行的？

　　这部分可以在倒排索引中快速完成：见图

　　关键词

　　文档

　　关键词1

　　文件 1 文件 2、文件 17、文件 110...文件 L

　　关键词2

　　文件 1、文件 7、文件 30...文件 B

　　关键词3

　　文件 2、文件 7、文件 30...文件 U

　　...

　　……………………

　　关键词6

　　文件 21、文件 70、文件 300...文件 K

　　...

　　………………

　　关键词7

　　文件 12、文件 27、文件 3...文件 L

　　如果用户搜索同时收录关键词2和关键词3的词，那么这个组会很准确的找到关键词2和关键词3个文件，然后返回！

　　3.如何选择初始子集？

　　互联网上有几万个页面，搜索某个关键词就会有几千万个页面。如果搜索引擎上来直接计算页面的相关性，简直太费时了。！其实用户不需要看这几千个页面，用户只需要一两个有用的页面！这时候搜索引擎会根据用户的搜索词选择100个文件，然后继续返回，那么你选择哪100个呢？这取决于您的网站页面和用户搜索的关键词之间的相对匹配！权重高的页面会进入搜索引擎预选子集中！

　　4. 计算相关性

　　选择子集后，将计算页面的相关性。我们不需要知道搜索引擎是如何计算页面相关度的，但是我们知道影响页面相关度计算的因素，这将有助于我们进一步优化我们的网站！

　　SEO 关注以下因素：

　　A：关键词的频率：例如，“来吧 UFO”

　　B：词频和密度

　　在没有关键词积累的情况下，一般认为页面上出现的搜索词的数量和密度越高，页面与搜索词的相关性就越高！

　　C：关键词的位置和形式

　　位置研究主要包括：首页还是副页？表格主要研究：标题标签、黑体、H1

　　D关键词距离：例如搜索词是“网站建”，如果页面上出现多次“网站建”而不是单独的“网站 " 后面没有施工，或者没有施工网站！

　　E：链接分析和页面权重

　　链接和权重的关系主要是锚文本。导入多少搜索词作为锚文本链接更相关

　　5.排名过滤和调整

　　选择匹配的文件子集后，大致排名就差不多确定了！这里做的排名过滤主要是针对那些依赖作弊手段，涉嫌作弊的网站调整！虽然最后按照之前的工作，即使这些网站的权重和相关性非常高，搜索引擎也会在最后一步过滤掉这些网站！

　　6.排名显示效果

　　主要显示为：原页面的标题标签、描述标签、快照日期等数据！

　　注意：有些网站是搜索引擎，需要调用动态生成的页面摘要，而不是调用页面本身的描述！

　　7、搜索引擎缓存的作用：

　　搜索引擎会记录一些用户经常搜索的词，并将这些搜索到的排名记录存储在搜索引擎的缓存中。当用户一次搜索这个词时，搜索引擎会直接调用缓存中的内容！缩短搜索反映时间，大大提高排名效率！

　　总结：

　　以上就是对搜索引擎整个工作过程的详细介绍！这些只是概念上的东西。其实搜索引擎的工作步骤和算法远比我们想象的复杂！不过没关系，我们做SEO只要了解上面的基本概念就够了！搜索引擎算法还在优化中，感兴趣的同学可以多加关注，也有利于优化的新突破！以上介绍的概念大致就是主流搜索引擎工作原理的基础！

　　小新

　　2012 年 12 月 30 日星期日晚上

　　申请创业报告，分享创业好点子。点击此处，共同探讨创业新机遇！

AI时代内容工厂

搜索引擎优化知识完全手册(项目招商找A5快速获取精准代理名单大家好，我是专门从事)

0 个评论

发起人