搜索引擎优化(seo)的基本工作模块(学习一下搜索引擎的工作原理是什么?怎么让蜘蛛来抓取模块)
优采云 发布时间: 2021-12-31 02:18搜索引擎优化(seo)的基本工作模块(学习一下搜索引擎的工作原理是什么?怎么让蜘蛛来抓取模块)
在正式学习SEO之前,还需要了解搜索引擎的工作原理。毕竟,SEO 是针对搜索引擎的。然后了解搜索引擎的工作原理。那么当你遇到一些问题时,你就可以知道问题发生了。原因。一个搜索引擎一般由以下模块组成:
1、抓取模块
2、过滤模块
3、收录 模块
4、测序模块
抓取模块
搜索引擎在运行时,第一个工作就是抓取互联网上的页面,实现这个工作的模块称为抓取模块。学习抓取模块,我们需要了解以下知识点:
1、搜索引擎爬虫:蜘蛛
搜索引擎要想自动抓取互联网上数以万计的网页,就必须有一个全自动的网页抓取程序。而这个程序一般叫做“蜘蛛”(也叫“机器人”)。那么不同搜索引擎的蜘蛛叫法不同。百度的爬虫程序一般称为百度蜘蛛。
谷歌的抓取程序一般称为谷歌机器人。
360爬虫一般称为360蜘蛛。
其实不管叫蜘蛛还是机器人,你只需要知道这是指搜索引擎的爬虫程序。蜘蛛的任务很简单,就是跟随链接不断爬取网上自己还没有收录的网页和链接,然后将爬取到的网页信息和链接信息存储在它们的网页数据库。而这些被爬取的网页将有机会出现在最终的搜索结果中。
2、如何让蜘蛛爬到我们的网站
通过上面对蜘蛛的解释,我们可以知道:如果你的页面最终会出现在搜索结果中,首先要让蜘蛛抓取我们的网站。以下三种方法可以让蜘蛛爬取我们的网站
外部链接:我们可以在一些收录搜索到的网站上发布自己的网站链接来吸引蜘蛛,或者交换友情链接也是常用的方法。
链接提交:百度为站长提供了一个链接提交工具。通过这个工具,我们只需要通过这个工具提交给百度,然后百度就会发送一个蜘蛛来抓取我们的网页。
百度网址提交工具网址(如图):
蜘蛛自己抓取:如果想让蜘蛛定期主动抓取自己网站的网页,那么就必须提供优质的网站内容。只有当蜘蛛发现你的网站的内容质量好时,蜘蛛才会特别照顾你的网站,并会定期来你的网站看看有没有新的内容生成。如何保证我们的网站能够提供有优势的内容,这个话题会在后面的章节中详细阐述。
3、我们怎么知道蜘蛛来找我们的网站
你可以通过以下两种方式知道蜘蛛是否去过我们的网站。
(1)百度爬频工具
工具网址是:
(2)服务器 IIS 日志
如果您的服务器开启了IIS日志功能,您也可以通过IIS日志文件查看蜘蛛的踪迹。通过IIS日志,我们可以发现百度蜘蛛抓取了我们的页面。
4、 影响蜘蛛爬行的因素
好的,我们知道网站想要有排名,第一步就是要能够被蜘蛛爬取。那么这些因素可能会导致蜘蛛无法正常抓取我们的网页,我们应该注意以下几点:
(1) URL不能太长:百度建议URL长度不要超过256字节(英文字母(不区分大小写))占用一个字节空间,一个汉字占用两个字节空间 )。
(2)不要在网址中收录中文:百度对中文网址的抓取效果比较差,所以不要在网址中收录中文。
(3)服务器问题:如果你的服务器质量差,老是打不开,也会影响蜘蛛的爬取效果。
(4)Robots.txt屏蔽:一些SEO人员疏忽,他们想被百度抓取的路径或页面在Robots.txt文件中被屏蔽。这对我们百度也会有影响网站爬行效果。
(5)避免蜘蛛难以解析的字符,如/abc/123456;;;;;; &CE DS$GHWF%.html URL蜘蛛无法理解会放弃爬取。
(6)注意动态参数不要太多,也不要太复杂。百度已经把动态网址处理的很好,但是参数太多、复杂的网址可能会被蜘蛛认为不重要而放弃。这一点尤其重要。 ,一定要注意。
过滤模块
由于 Internet 上充斥着垃圾邮件页面和无内容页面,因此搜索引擎或搜索用户不需要这些页面。因此,为了防止这些垃圾页面占用其宝贵的存储资源,搜索引擎会对蜘蛛检索到的内容进行过滤。完成此功能的模块称为过滤模块。那么那些因素会影响过滤模块,主要有以下2点:
(1)标识
由于搜索引擎蜘蛛目前最擅长分析文本和链接,因此仍然难以识别图片和视频。所以如果一个页面主要是图片和视频,搜索引擎很难识别页面的内容。对于此类页面,搜索引擎可能会将它们过滤为垃圾邮件 网站。所以我们在编辑网站的内容时,应该多加些文字说明,以免被过滤模块过滤掉。
(2)内容质量
搜索引擎还会根据可识别的内容,将抓取到的网页内容与数据库中已经存储的内容进行比较。如果搜索引擎发现你的页面内容的质量和数据库中的内容多半是重复的,或者质量比较差,那么这个页面也会被过滤掉。
收录模块
通过过滤模块“评估”的网页,将在数据格式上进行分段和标准化,然后作为程序模块存储在索引数据库中,我们称之为收录模块。如果你的网站有幸通过了收录模块,那么你就有机会获得排名。
1、如何查看网页是否为收录
最简单的方法是将网页的网址复制到百度搜索框中进行搜索。如果出现该页面的搜索结果,则说明该网址已为收录。
2、如何查看网站的收录金额
有2种方法:
(1)站点命令
通过“站点:域名”命令,我们可以看到搜索引擎已经抓取了某个域名下的页面数量:
(2)百度“指数金额”查询工具
您也可以通过百度官方提供的“索引量”查询工具查看我们的收录量。
收录金额少怎么办?
这分为两种情况:
(1)新站
一般来说,新网站刚刚上线,至少需要1到2个月的时间收录。前期一般只是一个首页收录。对于这种情况,没有别的办法,因为百度为了防止垃圾网站泛滥,特意延长了新网站的审核时间。所以,如果你是运营一个新网站,那么收录不用担心量少,只要你老老实实提供高质量的内容,那么2个月后百度就会开始收录你的内部页 。
(2)旧站
一些老站会显示收录的数量很小,即使收录的数量开始减少。一般是网站内页内容质量不好造成的。
这时候站长应该迅速调整整个网站的内容质量,只有提供高质量的内容,才能保证自己的网站排名不会发生变化。
分拣模块
对于索引数据库中存储的页面,通过一系列算法得到每个页面的权重,对它们进行排序的程序称为排序模块。
如果你的页面通过排序模块的计算排在某个关键词的顶部,那么当搜索用户搜索到关键词时,你的页面就可以显示在用户的前面了。如果你想让你的网站获得好的排名,你需要做到以下2点:
1、完善基础,优化
想要获得好的排名,那么你的网页首先要做基础的优化,包括网站定位、网站结构、网站布局、网站内容等。 部分。这些基础优化的内容我们后面会详细介绍。只有完善和优化了这些基础部分,才算合格。
2、综合资料好
在基础优化的基础上,如果你的百度统计后台数据表现良好,用户忠诚度和站外推广效果显着,则在及格线上获得加分。只要你的积分超过所有对手,那么你的网站就可以排在所有对手的前面。
总结
这篇文章为你讲解了搜索引擎的工作原理,那么掌握这个原理对你学习SEO有什么帮助呢?
帮助就是当你遇到一些SEO技术问题时,可以通过搜索引擎的工作原理找到原因。
比如你是一个新网站,工作了一个月,发现只有首页是收录。这时候可以知道是因为收录模块有新站的评估期,所以这是正常现象。
有或者你发现你的文章收录是正常的,但是没有排名。这时候你就会知道你的文章是收录模块收录,但是因为基础优化和综合数据不够好,排序模块没有给出很好的排名。所以你可以知道接下来的工作应该是提高网站的内容质量。
因此,掌握搜索引擎的工作原理对于我们学习SEO是必不可少的。