搜索引擎优化知识完(蜘蛛是怎么样去判断页面的重要性代码,会是障碍吗?)
优采云 发布时间: 2021-12-17 07:30搜索引擎优化知识完(蜘蛛是怎么样去判断页面的重要性代码,会是障碍吗?)
最近经常收到一些朋友的询问,尤其是打算接触这个行业的朋友。其中,山西的一个朋友问我对SEO有什么*敏*感*词*要求。我回答说SEO不需要很高的*敏*感*词*,只要你有毅力和学习的意愿。对方告诉我,他不懂编程,也不会编码。会不会是障碍?这位朋友让我想起了作者一开始对SEO的抵制。他以为自己看不懂,所以不想联系SEO,以为自己很在意。没有优势。当我看到那本书的第一页时,我告诉我:SEO不需要擅长编程,我的眼睛瞬间亮了。顺便说一句,要成为 SEO 和网络营销人员,
在这个文章中,我想简单谈谈搜索引擎的原理。其实,作为一个SEO,你必须熟悉搜索引擎的原理。只要熟悉原理,就可以更好地理解和理解为什么要使用各种优化技术来做到这一点。
我们在 SEO 中所说的蜘蛛是一种用于抓取和访问页面的搜索引擎程序。百度蜘蛛是:baiduspider,谷歌称机器人:googlebot。
蜘蛛会根据页面上的链接爬行,从一个页面爬到另一个页面,就是通过这些链接。蜘蛛爬行分为广度优先和深度优先。理论上,每种方法都可以让蜘蛛抓取所有页面,但在我们的实际情况下,时间不是无限的,不可能抓取互联网上的所有页面。
作为一个SEO人员,如果你想让你的网站被更多的爬虫收录,你必须想办法让蜘蛛爬行你的页面。如果你不能抓取所有页面,至少让蜘蛛抓取你的重要页面。那么,蜘蛛是如何判断页面重要性的呢?大概有几个因素:
更新度:蜘蛛爬取一次网站后,会存储该页面的数据。下次爬行的时候,如果发现这个页面还是和上次一样。表示这个页面没有更新,蜘蛛会认为没必要爬,频繁爬。反正这个页面每次来的内容都是一样的。如果蜘蛛每次来都发现更新,它会更频繁地来。
导入链接:要让蜘蛛知道某个页面,必须将导入链接导入到该页面。蜘蛛都是沿着链接爬的,不然蜘蛛是不会知道你页面的存在的,所以不用说爬行和收录。
做SEO的人都知道一个原则,就是每个页面和首页的点击距离应该是2-3次点击。一般网站权重最高的地方就是首页。有一个原则,页面离首页越近,页面权重越高,被蜘蛛爬取的概率就越大。这里还有一个提醒,向您展示主页上一些重要页面的网址。
蜘蛛爬取的内容将被存储。在此过程中,将检测并删除复制的内容。如果你的网站权重过低,大量转发内容被蜘蛛发现,蜘蛛可能不会再抓取你的网站。因为搜索引擎不喜欢重复的内容,这会增加它的无效工作。
抓取到内容后,搜索引擎会进行一系列的处理。当我们查询内容的时候,搜索引擎已经进行了一系列的计算,然后根据这些计算出排名。蜘蛛会做什么?
蜘蛛爬取的内容会先进行过滤,选择可以参与排名的内容——即可见文本。此外,还提取了一些收录文本信息的有用代码,例如 Meta、alt 和锚文本。
分词,这个主要是针对百度的,一个句子里的词都是连在一起的,搜索引擎必须想办法区分哪个是词组。例如,“小商品批发”可以分解为“小商品”和“批发”两个词。针对这种现象,我们能做的就是加粗关键词或者加个h标签,比如:小商品批发。因此,加粗或添加 h 标签还有另一个作用,可以帮助蜘蛛确定这是一个短语。
去掉“的”、“地”、“得”等词,去掉一些感叹词,去掉一些副词或介词。
消除影响页面主题的噪音、版权信息、广告等。
前面两步稍微做了一步,这里值得一提的是去重步骤。同一篇文章文章可能会发表在不同的地方、不同的网站。搜索引擎不喜欢这些重复的内容。很多时候搜索引擎希望只返回相同的文章文章。蜘蛛将识别重复的内容。此步骤称为“重复数据删除”。而且,搜索引擎的“去重”水平已经达到了比较先进的水平,这绝对不是我们一些人想当然的。他会从页面内容中选出最具代表性的关键词进行各种计算和分析。所以网站写的一些伪原创只是改变了段落的顺序,稍微替换了几个词,这无法避免蜘蛛的识别。有朋友傻傻的说我每天更新文章,为什么我的网站上还是没有收录。或者,为什么我每天更新文章,但我仍然被降级。
建立索引后,计算链接关系,例如导入的链接和锚文本。然后搜索引擎也会对一些特殊的文件进行处理,比如:PDF、Word、PPT、TXT等。记得有一个站长用百度文库的锚文本做的。现在百度文库好像权重比较低,但是经过特殊的文件处理,搜索引擎无法识别视频、图片、Flash,也无法判断这些东西的含义。这就是为什么网站不要添加太多的Flash和视频,以及为什么你应该给图片添加alt标签。因为蜘蛛依赖于描述性标签,alt 标签,来确定图片的内容。
然后是排名。在排名过程中,会进行中文分词。这里我打算举一个title关键词选择的例子。当我们选择关键词时,一定要考虑到我们可以将一个关键词分开,并组合成一个新的关键词。这是为了使用百度的分词原理。
搜索引擎会根据用户的搜索匹配最好的关键词。但是有这么多文件,蜘蛛应该向用户展示哪一个?首先是相关性,可以理解为页面的密度关键词。除了这个页面的相关性,这里还必须考虑页面的权重。当匹配数过大时,蜘蛛不可能也没有必要对所有页面进行全部计算,因此会选择最重要的页面(权重高的页面)进行相关性计算。
经过对搜索引擎的一些调整,结果呈现给大家。
有朋友问我,我不是计算机专业的,也可以从事这个行业吗?哈哈,江峰上大学的时候,电脑专业没毕业……
值得一提的是,作者家乡的另一个部落联系了我,鼓励我写得好。江枫惭愧。上一篇文章只是感慨一下,没有分享什么干货。所以我也在思考这个文章能提供什么样的真正有用的内容给新手朋友。
其实一直接触国内的SEO,就是百度的优化。前几天和朋友的交流让我意识到了某些事情的重要性,于是在网上买了一本专业的书,是几位外国大神写的专门针对谷歌的优化书。写这篇文章的时候,想到路上有一本好书,江枫还是很开心的。
我的朋友告诉我他已经下载了这本书的电子书,但他的眼睛很痛。根据我个人的经验,如果你想看技术类的,就得买书看。PDF和txt根本不方便。电子书阅读小说几乎是一样的。相信来到A5的朋友有的是站长也有的是SEOer,有的是新手,渴望在这里学习知识。但我还是建议你买一本这方面的书。你花的几十美元绝对物有所值。个人觉得看网上的零碎教程实在是没有什么效果。看书比较系统。其他人写的帖子有不同的风格和理解。这是非常混乱。