搜索引擎优化知识完全手册(项目招商找A5快速获取精准代理名单大家好,我是专门从事)
优采云 发布时间: 2021-10-24 08:15搜索引擎优化知识完全手册(项目招商找A5快速获取精准代理名单大家好,我是专门从事)
项目招商找A5快速获取精准代理商名单
大家好,我是SEO专业的,几个月来一直在维护和优化按摩师排行榜网站,从中总结了很多经验和知识。今天想分享的是《搜索引擎基础知识和工作原理》。这是最基本的概念。
第 1 部分:什么是搜索引擎?
1.定义?
官方定义:
搜索引擎是指按照一定的策略从互联网上采集信息,并使用特定的计算机程序,对信息进行组织和处理,为用户提供检索服务,并向用户展示与用户检索相关的相关信息的系统。百度和谷歌是搜索引擎的代表。
我的理解是:
根据搜索引擎的搜索规则设置目标网站的内容,在用户搜索的时候更好的展示用户想要的内容!这样的服务过程是通过一个叫做搜索引擎的工具实现的!
2. 分类?
(1)全文索引:
从整个互联网中提取每条网站信息(主要是网页文本),通过自己的搜索程序(Indexer)建立数据库,俗称“蜘蛛”程序或“机器人”程序,搜索结果直接调用来自它自己的数据库。并且可以检索符合用户查询条件的记录,并按照一定的顺序返回结果。全文搜索引擎是目前广泛使用的主流搜索引擎。国外的代表是谷歌,国内的代表是大名鼎鼎的百度。
SEO 应该专注于此类搜索引擎研究:
关键词的匹配度、位置、频率、链接质量——
因为:当用户搜索带有关键词的信息时,搜索引擎会在数据库中搜索。如果找到符合用户要求的网站,它会使用一种特殊的算法——通常是从网页中计算出每个网页的相关性和排名级别,然后根据相关性级别,返回这些网页链接给用户按顺序。该引擎的特点是搜索率相对较高。
(2) 目录索引
用户可以根据分类目录找到自己需要的信息,不依赖关键词(Keywords)查询。虽然它有搜索功能,但不能称其为严格意义上的真正搜索引擎。它只是按目录分类的 网站 链接列表。最具代表性的目录索引是雅虎、新浪目录搜索、hao123。
(3) 元搜索引擎
(META Search Engine) 接受用户的查询请求后,同时在多个搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,最具代表性的中文元搜索引擎是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,比如Dogpile;一些根据自定义规则重新排列和组合结果,例如 Vivisimo。
(4) 垂直搜索引擎
是2006年后逐渐兴起的一类搜索引擎。 与一般的网络搜索引擎不同,垂直搜索侧重于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、等),并在其特定的搜索领域有更好的搜索范围。用户体验。与一般搜索中的数千台搜索服务器相比,垂直搜索需要较低的硬件成本、特定的用户需求以及多种查询方式。准确率比较高!
(5)集成搜索引擎:这个搜索引擎类似于元搜索引擎。不同之处在于它不会同时调用多个搜索引擎进行搜索,而是用户从提供的多个搜索引擎中进行选择,例如2002年底作为HotBot推出搜索引擎。
(6)门户搜索引擎
例如,MSNSearch 既不是目录也不是网页数据库,其搜索结果完全来自其他搜索引擎。
(7)免费链接列表
免费为所有链接(简称FFA):通常,它只是滚动链接条目。其中一些有简单的目录,但规模比 Yahoo! 小得多。和其他目录索引。
总结:SEO离不开搜索引擎。从某种意义上说,SEO是一个与搜索引擎博弈的过程!虽然我们做SEO,但我们不需要写代码,也不需要深入了解搜索引擎的技术细节。还应该了解一些搜索引擎的基本常识,对我们的优化工作有好处!只有了解了搜索引擎的这些基本概念,我们才能做好网站优化!
第 2 部分:搜索引擎的历史
随着当今互联网的发展速度,互联网上的资源已经远远超出了人类的想象和控制。如果没有搜索引擎,我们将找不到我们想要的!尤其是facebook、twitter、微博等社交网络的发展,移动应用的爆发式增长,无论是在用户数量、网站的流量方面?或者社会影响力远超雅虎、谷歌等互联网巨头。话说回来,这些和SEO又有什么关系呢?只要有网络,就有搜索,有搜索的地方,就是SEO!
那么搜索引擎的发展历史是怎样的呢?我们做网站优化有什么需要和帮助?不了解搜索引擎的发展历史就不能做SEO吗?其实并非如此,了解搜索引擎的发展历程,会对我们做网站优化更有帮助!
搜索引擎的发展历史我这里就不详细解释了。有兴趣的可以到搜索引擎直达列车网站学习!
我们来看看搜索引擎的增长带来的价值:
这些数据可以解释几个问题:
(1),搜索市场还在火爆!SEO有很大的机会和金矿
(2)通过搜索引擎的增长,搜索引擎公司的收入有很大一部分来自网络广告,其中SEM占比很高,SEO是自然搜索排名。同样可以做到没有很多钱的价值;
(3) 其他搜索离用户越来越近,SEO有更多施展才华的地方!
(4)通过不同平台的竞争,社会的关注,身体素质的不断提高,对于未来做SEO的企业来说也是一个福音!
总结:
通过搜索引擎的发展速度,我们可以轻松判断未来SEO的重要性!了解搜索引擎的发展历史,有助于SEO优化者对SEM的发展和转型有更深入的了解!这对我们也是有好处的。把握好未来方向!只有与时俱进,才能不断进步!搜索引擎发展迅速。对SEO来说是个好东西,只要搜索到的地方都会有排名,排名会用到SEO技术!我们要做的就是不断关注这些动态变化,才能更好的发挥SEO的优势!
大家都知道,互联网的发展没有那么快!随着互联网的发展,搜索引擎的价值不断飙升。你为什么使用这种搜索技术?它是怎么出现的?例如:我们的图书馆是图书的宝库,当图书馆里的图书和档案随着时间的推移不断增加时,难免会出现问题,很难找到,也很难管理。这个时候我们应该怎么做?通过目录管理,我们可以实现对库中所有文件的定期管理。其实我们的搜索引擎原理就是源于此。一种传统的文档检索技术!那么搜索引擎的真正原理是什么呢?我们继续往下看:
第三部分:搜索引擎的工作原理:
搜索引擎的工作原理大致可以分为三个阶段:
(1)爬行爬行:
即搜索引擎蜘蛛通过跟踪链接地址访问网站页面,并将获取到的网站页面html代码放入自己的数据库中。
爬取和爬取是搜索引擎工作的第一步,主要完成数据采集的任务;
解释几个关键词:
1.蜘蛛:
(1) 定义:我在抓取网页数据时称它为执行器。其实它是一个计算机程序,因为工作过程与现实中的蜘蛛非常相似。专业人士称之为搜索引擎蜘蛛。!
(2) 工作流程:蜘蛛程序向网站页面发送访问请求,服务器返回HTML代码,蜘蛛程序将接收到的代码存储到原创页面的数据库中。蜘蛛访问任何网站时,都会首先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛会遵守这些禁令,不会抓取那些被禁止的网址。
(3) 常见搜索引擎蜘蛛名:
百度蜘蛛、雅虎中国蜘蛛、谷歌蜘蛛、微软必应蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!
2. 追踪链接
大家都知道,整个互联网都是由链接的网站页面组成的!页面和页面通过链接连接。搜索引擎可以通过搜索更快地采集网站数据。引擎蜘蛛跟随 网站 页面上的链接,从一页抓取到下一页!这个过程和蜘蛛在蜘蛛网上爬行是一样的!这样蜘蛛就可以快速抓取整个互联网网站页面!
根据网站的不同链接结构,我们可以将蜘蛛的爬行路线分为两种:深度爬行和广度爬行
A:深度爬行:蜘蛛沿着找到的页面链接向前爬行,直到前面没有其他链接,然后回到第一页,沿着另一个链接向前爬行!
B:广度爬行:当蜘蛛在一个页面上发现多个链接时,它不会沿着一个链接向前爬,而是爬取页面上所有的一级链接,然后继续沿着二级页面找到的链接页面爬到第三页!继续这样……
所以,我们在做网站的时候,对于网站的结构一定要有这两种布局,而且在优化网站页面的时候也要做这两种链接布局!这样的结构才是搜索引擎蜘蛛群喜欢的!
3、针对性优化技术引诱蜘蛛
A:阅读网站,优化页面权重,增加蜘蛛访问量。
B:做好页面更新频率和内容质量
C:增加导入链接
D:离首页的点击距离;离首页的点击距离越近,页面权重越高,蜘蛛爬行的机会就越大
4.地址库,
搜索引擎会建立一个地址库来存储页面,目的是为了防止搜索引擎蜘蛛反复抓取和抓取网址。这个地址库里有页面被爬取了,还有被发现后没有被爬取的页面!
这个地址库中的URL一定要被蜘蛛爬取吗?答案是不
有手动输入的*敏*感*词*网站地址,也有站长通过搜索引擎网页提交表单提交的网址!
还有一点需要注意的是:URL一旦提交,可能就不能成为收录了。这取决于您提交的页面的权重!但是搜索引擎蜘蛛还是喜欢跟着链接自己爬网页!这样更好吃!
5. 文件存储
搜索引擎蜘蛛抓取到的页面都存储在这个原创页面数据库中!每个 URL 都有一个唯一的文件编号!
6. 复制内容检测
很多站长都遇到过这样的问题:我发现网站页面上有蜘蛛爬行,但是页面没有被收录。我不知道怎么回事!它实际上非常简单而且非常好。可能是蜘蛛在爬你的网页时发现了很多权重较低的内容,比如:转载或者伪原创的内容,蜘蛛就会离开!您的网页不会是收录!Spider在抓取页面内容的时候,也会进行一定程度的复制内容检测!
(2) 预处理
这个过程是指:索引程序对数据库中蜘蛛爬取的网站页面进行处理,主要做文本提取、中文分词、索引等;
这个过程起到了桥梁的作用。因为搜索引擎数据库中的数据太多,当用户在搜索框中输入关键词时,不可能一下子返回排名结果,但很多时候我们都觉得非常快,其实就是预处理过程起着关键作用!和爬虫过程一样,也是在后台提前完成的!
有些人认为预处理就是索引。事实上,情况并非如此。索引只是预处理的一个主要步骤。那么什么是索引?索引是一种对数据库列表中一个或多个列的值进行排序的结构!
在索引之前有五个任务需要完成:
1.提取文本:
我们知道蜘蛛爬行的页面收录了所有的HTML代码,里面其实收录了很多信息:有文本,CSS属性,很多HTML格式标签,javascript程序!但后两者不能参与排名内容。这意味着除文本外的所有内容都已删除。这个过程就是去除过程,也叫提取文本的过程,即:提取网站页面的文本内容,可以用于排名处理!
注:除了提取可见文本,搜索引擎还可以提出以下不可见文本内容;例如:METa标签中的文本内容、图片替代文本、FLASH文件替代文本、链接锚文本等!
2.中文分词
大家都知道中文句子和英文句子是有区别的。不是字母和汉字的区别。相反,英语单词和单词用空格分隔。在中文句子中,单词之间没有分隔符。一句话里的词都是连在一起的!所以,这个时候搜索引擎首先要区分哪些词构成一个词,哪些词本身就是一个词!例如:“波司登羽绒服”将分为“波司登”和“羽绒服”两个词;
中文分词一般有两种方法:
A:字典匹配:分为正向匹配和反向匹配!
B:根据搜索统计
两者经常混在一起!并且百度和谷歌中分词的相关性有时是不同的。例如,搜索引擎优化在百度中是一个完整的词,但在谷歌中却分为“搜索”。“引擎”和“优化”是三个部分,所以在做优化的时候一定要注意所选关键词的特性。后面我们会详细讲解选词技巧。
注意:如果我们要组合一个词而不让搜索引擎的分词技术将它分开怎么办?
我们可以这样做:在页面标题、h1标签中,使用粗体将关键词! 这样搜索引擎就会得到适当的提醒,搜索引擎就会知道我们这个词是组合词,不会被使用。分开了!
3.转到停用词
什么是停用词?那些经常出现在页面上并且对内容没有实质性影响的词;例如:“的”、“得”、“地”、“啊”、“哈”、“啊”等。这些词被称为停用词!英文:the、a、an、to、of等。
搜索引擎停用词有两个主要目的:
一是使指标数据的主体更加突出,减少不必要的计算量;
另一种是:检查你的内容是否与另一个数据库中的内容有很多重复
在这里我需要提醒大家的是:以后不要随便在网上复制一篇文章的文章,加几个停用词贴在你的网站上。了解了上面的内容,你应该就知道是什么意思了。NS!
4.去除噪音:
这里的noise并不是我们所说的noise,它特指一种垃圾,也就是多余的话!这些词一般收录在版权声明文本、导航栏和广告中!消除噪音是为了让页面更好地显示主题内容:
示例:博客中的“类别”和“历史档案”!
5.去除(冲)
你的意思是?如果相同的文章出现在不同的网站或者链接到不同的地址,搜索引擎会认为是文件,不喜欢这样重复的内容,所以不会爬!在索引之前,需要对内容进行识别并删除重复的内容,这就是所谓的“去重”!
如何删除繁重的搜索引擎!我们不需要掌握技术,但要注意几个关键点:
答:只要加上“得”、“地”、“得”,很容易辨认,一定要慎重使用!
B:复制别人的文章,简单交换段落结构!这种伪原创也一定要慎用!
这是因为:这样的操作无法改变文章的具体关键词,上述方法也逃不过搜索引擎的去重算法。
经过以上五个步骤,搜索引擎将能够获得能够反映页面主要内容的独特的、基于词的内容。
然后搜索引擎程序通过分词程序将上面提取的关键词进行分割,将每个网站页面转换成关键词的集合!同时,记录每个关键词出现在关键词的频率、次数、格式(如:标题标签、粗体、H标签、锚文本等)和位置(段落)页面,这些都是以重量的形式记录的!然后把它放到一个地方,这个地方就是专门放置这些复合词的词汇结构——索引库!也作为《词汇索引表》移交
什么是前向指数:
每个文件夹对应一个ID,文件内容表示为关键词! 在搜索引擎的索引库中,此时 关键词 还没有转化为 关键词 ID ,这样的数据结构叫做正向索引!
画个图让大家明白:
文件编号
内容
文件夹 1
关键词1、关键词2、关键词7、关键词10……关键词L
文件夹 2
关键词2,关键词7,关键词30……关键词M
文件夹 3
关键词2,关键词70,关键词35……关键词N
...
……………………
文件夹 7
关键词2,关键词7,……关键词X
...
………………
文件夹 X
关键词7、关键词50.、关键词是
什么是倒排索引?
因为前向索引不能直接用于排名!例如,如果用户搜索某个关键词2,如果仅从前向索引,只能找到收录关键词的文件夹,而实际上无法返回排名。;此时会使用倒排索引
在倒排索引中,关键词 成为主键。每个关键词对应一系列文件,每个文件都有关键词需要搜索,这样用户在搜索某个关键词,排序程序就可以找到对应的文件到倒排列表中的这个关键词!
详情请看图片:
关键词
文档
关键词1
文件 1 文件 2、文件 17、文件 110...文件 L
关键词2
文件 2、文件 7、文件 30...文件 B
关键词3
文件 2、文件 7、文件 30...文件 U
...
……………………
关键词6
文件 21、文件 70、文件 300...文件 K
...
………………
关键词7
文件 12、文件 27、文件 3...文件 L
特殊文件的处理:
除了抓取HTNL文件外,搜索引擎还可以抓取以下文件类型:PDF、Word、WPS、PPT、TXT等,但需要注意的是:搜索引擎不能抓取图片、视频、Flash等文本内容。无法执行脚本和程序!所以做SEO的时候,尽量少用网站!
链接关系的计算:
搜索引擎抓取页面后,还必须提前计算哪些链接指向页面上的哪些页面。每个页面导入的链接是什么,链接中使用了哪些锚文本?正是这些复杂的链接指向关系,构成了网站和页面的链接权重!例如:Google的PR值就是这些关系的重要体现,后面详解!
排行:
排名过程是与用户交互的过程:用户进入关键词后,排名程序调用索引库中的数据,计算相关性,生成一定格式的搜索结果页面!
1. 检索词的处理
A:中文分词;我之前说过
B:转到停用词;我之前说过;
C:指令处理:搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。例如,当用户搜索“网站建”时,搜索引擎默认为用户想要查找的内容。收录“网站”和“Build”的页面!
常见的搜索命令有加号和减号。还有哪些其他搜索命令?如何使用搜索命令,后面我会拿出详细的小节来详细讲解!
D:如果用户输入明显错误的单词或英文单词,搜索引擎会提示用户使用正确的单词或拼写!例如:搜索“建站技巧”
E:集成搜索触发器!比如搜索明星,就会有图片、视频等内容!适合热点话题;
2. 文件匹配是如何进行的?
这部分可以在倒排索引中快速完成:见图
关键词
文档
关键词1
文件 1 文件 2、文件 17、文件 110...文件 L
关键词2
文件 1、文件 7、文件 30...文件 B
关键词3
文件 2、文件 7、文件 30...文件 U
...
……………………
关键词6
文件 21、文件 70、文件 300...文件 K
...
………………
关键词7
文件 12、文件 27、文件 3...文件 L
如果用户搜索同时收录关键词2和关键词3的词,那么这个组会很准确的找到关键词2和关键词3个文件,然后返回!
3.如何选择初始子集?
互联网上有几万个页面,搜索某个关键词就会有几千万个页面。如果搜索引擎上来直接计算页面的相关性,简直太费时了。!其实用户不需要看这几千个页面,用户只需要一两个有用的页面!这时候搜索引擎会根据用户的搜索词选择100个文件,然后继续返回,那么你选择哪100个呢?这取决于您的 网站 页面和用户搜索的 关键词 之间的相对匹配!权重高的页面会进入搜索引擎预选子集中!
4. 计算相关性
选择子集后,将计算页面的相关性。我们不需要知道搜索引擎是如何计算页面相关度的,但是我们知道影响页面相关度计算的因素,这将有助于我们进一步优化我们的网站!
SEO 关注以下因素:
A:关键词 的频率:例如,“来吧 UFO”
B:词频和密度
在没有关键词积累的情况下,一般认为页面上出现的搜索词的数量和密度越高,页面与搜索词的相关性就越高!
C:关键词的位置和形式
位置研究主要包括:首页还是副页?表格主要研究:标题标签、黑体、H1
D关键词距离:例如搜索词是“网站建”,如果页面上出现多次“网站建”而不是单独的“网站 " 后面没有施工,或者没有施工网站!
E:链接分析和页面权重
链接和权重的关系主要是锚文本。导入多少搜索词作为锚文本链接更相关
5.排名过滤和调整
选择匹配的文件子集后,大致排名就差不多确定了!这里做的排名过滤主要是针对那些依赖作弊手段,涉嫌作弊的网站调整!虽然最后按照之前的工作,即使这些网站的权重和相关性非常高,搜索引擎也会在最后一步过滤掉这些网站!
6.排名显示效果
主要显示为:原页面的标题标签、描述标签、快照日期等数据!
注意:有些网站是搜索引擎,需要调用动态生成的页面摘要,而不是调用页面本身的描述!
7、搜索引擎缓存的作用:
搜索引擎会记录一些用户经常搜索的词,并将这些搜索到的排名记录存储在搜索引擎的缓存中。当用户一次搜索这个词时,搜索引擎会直接调用缓存中的内容!缩短搜索反映时间,大大提高排名效率!
总结:
以上就是对搜索引擎整个工作过程的详细介绍!这些只是概念上的东西。其实搜索引擎的工作步骤和算法远比我们想象的复杂!不过没关系,我们做SEO只要了解上面的基本概念就够了!搜索引擎算法还在优化中,感兴趣的同学可以多加关注,也有利于优化的新突破!以上介绍的概念大致就是主流搜索引擎工作原理的基础!
小新
2012 年 12 月 30 日星期日晚上
申请创业报告,分享创业好点子。点击此处,共同探讨创业新机遇!